Mamba-3
Le texte présente Mamba-3, un modèle d'espace d'état conçu avant tout pour l'efficacité d'inférence, en contraste avec Mamba-2 axé sur la vitesse d'entraînement. Les améliorations clés incluent une récurrence plus expressive, le suivi d'états complexes et une variante MIMO qui améliore la précision sans ralentir le décodage. Les résultats montrent que Mamba-3 SISO bat Mamba-2, Gated DeltaNet et même Llama-3.2-1B sur la latence pré-remplissage et décodage pour diverses longueurs de séquence. Les auteurs ont open-source les kernels et combinent Triton, TileLang et CuTe DSL pour obtenir des performances matérielles optimales. Le travail est réalisé en collaboration entre Carnegie Mellon University, Princeton University, Cartesia AI et Together AI et reflète une transition vers des architectures centrées sur l'inférence.