SkillsBench: Benchmarking how well agent skills work across diverse tasks
Les Skills sont des packages structurés de connaissances procédurales qui améliorent les performances des agents LLM lors de l'inférence. SkillsBench présente un benchmark comprenant 86 tâches réparties sur 11 domaines, associant des Skills sélectionnés et des vérificateurs déterministes. Chaque tâche est évaluée selon trois conditions : sans Skill, avec des Skills sélectionnés et avec des Skills auto-générés par le modèle. Sur 7 configurations de modèles et 7 308 trajectoires, les Skills sélectionnés augmentent le taux de réussite moyen de 16,2 points de pourcentage, avec des gains variables selon le domaine et 16 des 84 tâches présentent des deltas négatifs. Les Skills auto-générés n'apportent aucun bénéfice en moyenne, et des Skills ciblés à 2–3 modules surpassent une documentation exhaustive, les petits modèles équipés de Skills pouvant égaler les grands modèles sans eux.