GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents
Ce travail présente un modèle multimodal conçu pour intégrer la perception comme composant central des capacités d'agent, notamment le raisonnement, la planification, l'utilisation d'outils et l'exécution. Les améliorations portent sur la conception du modèle, l'entraînement multimodal, l'apprentissage par renforcement, l'extension de la chaîne d'outils et l'intégration aux frameworks d'agents. Ces développements améliorent les performances en codage multimodal, en utilisation visuelle d'outils et en tâches agentiques basées sur des frameworks, tout en conservant des capacités compétitives en codage uniquement textuel. Le processus de développement met en évidence l'importance centrale de la perception multimodale, de l'optimisation hiérarchique et de la vérification fiable de bout en bout. Les résultats et les méthodes fournissent des éléments pratiques pour le déploiement de modèles fondamentaux multimodaux natifs dans des environnements réels et pour la construction d'agents multimodaux.