Book: The Emerging Science of Machine Learning Benchmarks
Le texte analyse les benchmarks en apprentissage automatique, en partant de la séparation train/test et de l’idée que les modèles seront jugés sur le test. Il montre que les benchmarks peuvent orienter la recherche vers des objectifs limités, favoriser le surajustement et produire des scores qui ne reflètent pas la réalité. Des considérations éthiques et sociales accompagnent ces critiques, soulignant les biais et l’exploitation de main-d’œuvre marginalisée pour des jeux de données massifs. L’ère des grands modèles linguistiques introduit de nouveaux défis, notamment l’incertitude sur les données d’entraînement, les benchmarks multi-tâches et la performativité. L’auteur appelle à fonder la science des benchmarks sur des bases théoriques et empiriques solides, afin que les classements et les évaluations reflètent vraiment les capacités et les limites des modèles.