convex-evals

Tracked since 2026-07-01

AI Summary

Convex-evals is a framework for evaluating large language models (LLMs) by generating and scoring adversarial test cases, designed for AI researchers and safety engineers. It systematically probes model weaknesses through automated, multi-turn conversations, making it interesting for its ability to uncover subtle failure modes that standard benchmarks miss.