A sleep-like consolidation mechanism for LLMs
Les modèles transformateurs à grande échelle rencontrent des problèmes d'évolutivité de l'attention pour les tâches à long horizon. Les auteurs proposent un mécanisme de consolidation inspiré du sommeil qui convertit périodiquement le contexte récent en poids rapides persistants avant de vider le cache clé-valeur, en effectuant N passes récurrentes hors ligne. La mise à jour des poids rapides s'effectue dans les blocs SSM via une règle locale apprise, ce qui décale le coût de calcul vers la phase de sommeil tout en préservant la latence en éveil. La méthode est évaluée sur des tâches synthétiques contrôlées comme les automates cellulaires et la récupération multi-sauts sur graphes, ainsi que sur une tâche réaliste de raisonnement mathématique où les transformateurs classiques et les modèles hybrides SSM-attention échouent. Les performances s'améliorent en augmentant la durée de sommeil N, avec les gains les plus importants pour les exemples nécessitant un raisonnement plus profond.