DeepSWE: A contamination-free benchmark for long-horizon coding agents
DeepSWE est un benchmark de longue horizon pour l'ingénierie logicielle composé de tâches originales conçues sans contamination par des commits publics et couvrant 91 dépôts dans cinq langages. Chaque tâche fournit un prompt court orienté comportement, un vérificateur écrit à la main qui juge le comportement observable et une solution de référence utilisée uniquement pour la revue. Les auteurs montrent que DeepSWE sépare plus nettement les agents de pointe que SWE-Bench Pro et mesure aussi l'efficacité en tokens, temps d'exécution et coût par essai. L'analyse qualitative identifie des comportements distincts selon les familles de modèles, notamment des oublis de branches chez certaines versions de Claude, une lecture littérale des prompts par GPT et une propension des modèles plus forts à écrire et exécuter leurs propres tests. Les limites incluent l'usage d'un seul harness standardisé, un corpus limité aux dépôts publics ≥500 étoiles et l'absence de certains types de tâches et langages, et les auteurs proposent d'étendre le corpus, les verificateurs et les harnesses.