Audio is the one area small labs are winning
Gradium est né de l’open lab Kyutai et se donne pour mission de transformer la recherche audio en produits commerciaux. Moshi, le modèle fondation de Gradium, est le premier système de conversation en temps réel en duplex intégral, capable de réagir en environ 160 ms et d’interrompre l’utilisateur. Le texte souligne que de petites équipes peuvent surpasser les grands laboratoires grâce à leur expertise, leur exécution rapide et leur faible bureaucratie. Les avancées reposent sur une architecture full duplex, des codecs neuronaux comme Mimi et SoundStream, et une approche qui fusionne les tokens sémantiques et acoustiques pour le traitement en temps réel. Gradium a levé environ 70 millions de dollars et propose des modèles open source utilisables en production, accessibles via leur site et leur API.