Can LLMs Beat Classical Hyperparameter Optimization Algorithms?
Cette étude utilise le dépôt autoresearch pour comparer des algorithmes classiques d'optimisation d'hyperparamètres et des agents LLM en réglant directement le code d'entraînement sous un budget de calcul fixe. Dans un espace de recherche fixé, des méthodes classiques comme CMA-ES et TPE surpassent systématiquement les agents LLM, où l'évitement des erreurs d'épuisement de mémoire prime sur la diversité de recherche. Permettre à un LLM d'éditer le code source réduit l'écart mais ne le comble pas, même avec des modèles de pointe tels que Claude Opus 4.6 et Gemini 3.1 Pro, en partie parce que les LLM peinent à suivre l'état d'optimisation entre les essais. Pour tirer parti des connaissances des LLM et de l'interprétabilité des méthodes classiques, les auteurs introduisent Centaur, un hybride qui partage l'état interne de CMA-ES avec un LLM et obtient les meilleurs résultats, où un modèle de 0,8 milliard de paramètres suffit à dépasser les approches classiques et purement LLM. Les auteurs constatent aussi que l'édition de code sans contraintes exige des modèles plus gros pour être compétitive, et concluent que les LLM sont surtout efficaces comme complément aux optimisateurs classiques; les expériences incluent des analyses de diversité de recherche, d'évolution en taille de modèle et d'ablation, et le code ainsi qu'une démonstration interactive sont disponibles.