Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate
Le débat multi-agent améliore le raisonnement des grands modèles de langage mais est coûteux en calcul en raison de la génération de longs transcrits. Les auteurs proposent un cadre qui distille le débat multi-agent en un seul LLM par un réglage fin en deux étapes combinant l'apprentissage de la structure du débat et l'intériorisation via une programmation dynamique des récompenses et un tronquage de longueur. Sur plusieurs modèles et bancs d'essai, les modèles intériorisés égalent ou dépassent les performances du débat multi-agent explicite tout en utilisant jusqu'à 93 % de tokens en moins. Une analyse mécanistique par activation steering révèle que l'intériorisation crée des sous-espaces spécifiques aux agents, c'est-à-dire des directions interprétables dans l'espace d'activation correspondant à différentes perspectives d'agent. En pratique, en instaurant des agents malveillants puis en appliquant un negative steering pour les supprimer, la distillation facilite la localisation et le contrôle des comportements nocifs avec des réductions de performance générales plus faibles que pour les modèles de base, et les auteurs fournissent des recommandations pratiques et le code.