Tree Search Distillation for Language Models Using PPO
L’objectif est de savoir si la distillation guidée par la recherche peut améliorer le raisonnement des modèles de langage et comment cela se compare aux méthodes RL usuelles comme GRPO et CISPO. L’auteur applique MCTS sur les étapes de raisonnement de Qwen-2.5-1.5B-Instruct et distille les trajectoires optimisées dans le modèle via une boucle PPO en ligne. Sur l’environnement Countdown, le modèle distillé par MCTS affiche un score moyen@16 de 11,3%, contre 8,4% pour CISPO et 7,7% pour Best-of-N. Best-of-N sous-performe malgré une récompense d’entraînement plus élevée, et l’auteur propose des hypothèses liées à la nécessité d’un raisonnement robuste sur chaque tentative. Le texte invite à explorer davantage les paramètres de MCTS, à tester sur des modèles plus grands et à poursuivre le travail sur l’évolutivité, tout en reconnaissant que les résultats peuvent être spécifiques aux petits modèles.