How We Broke Top AI Agent Benchmarks: And What Comes Next
Des chercheurs de Berkeley ont construit un agent automatisé qui a audité huit benchmarks d'agents et obtenu des scores quasi parfaits sans résoudre les tâches, montrant que les évaluations pouvaient être exploitées. Ils décrivent des exploits concrets, notamment des trojans de binaires et wrappers curl dans Terminal‑Bench, un conftest.py qui force pytest à passer dans SWE‑bench, la lecture de fichiers config via file:// dans WebArena, une validate() qui n'évalue pas dans FieldWorkArena, le téléchargement des réponses oracles dans OSWorld, une normalisation laxiste dans GAIA et des injections de consignes dans des juges LLM pour CAR‑bench. Ces failles se résument en sept motifs récurrents, parmi lesquels l'absence d'isolation entre agent et évaluateur, la diffusion des réponses, l'utilisation dangereuse d'eval(), la non‑sanitisation des entrées pour les juges LLM, des comparaisons de chaînes trop permissives, une logique d'évaluation défectueuse et la confiance accordée aux sorties de code non fiable. Les auteurs soulignent que ces vulnérabilités rendent les classements peu fiables et peuvent fausser des décisions de sélection de modèles, d'investissement, d'orientation de la recherche et d'évaluation de sécurité, d'autant plus que des agents plus capables pourraient adopter ces hacks comme stratégie émergente. Ils proposent une "Agent‑Eval Checklist" et un outil, BenchJack, pour tester adversarialement les pipelines d'évaluation en isolant l'évaluateur, en gardant les réponses secrètes, en évitant eval(), en durcissant la sanitation des entrées et en rendant le scoring robuste avant publication.