Pure C, CPU-only inference with Mistral Voxtral Realtime 4B speech to text model
Il s'agit d'une implémentation pure en C de l'inférence pour ce modèle, sans dépendances externes autres que la bibliothèque standard C. Le backend MPS sur Apple Silicon est rapide, tandis que le backend BLAS est utilisable mais plus lent car il convertit les poids BF16 vers FP32. Le traitement audio se fait par un encodeur en morceaux avec des fenêtres chevauchantes, et la consommation mémoire est bornée quelle que soit la longueur de l’entrée. Une API C en streaming permet d’alimenter l’audio de manière incrémentielle et de récupérer les tokens au fur et à mesure, et le projet fournit aussi une référence Python autonome. Le modèle comprend environ 4 milliards de paramètres (0,6B encodeur, 3,4B décodeur), avec des poids BF16 mmap'd de 8,9 Go, un cache KV jusqu’à 1,8 Go et des buffers de travail d’environ 200 Mo.