Wan Streamer v0.1: End-to-End Real-Time Interactive Foundation Models
Ce modèle de fondation est conçu pour l'interaction audio‑visuelle en temps réel, à faible latence et en full‑duplex, en traitant langue, audio et vidéo simultanément en entrée et en sortie. Un unique Transformer traite une séquence causale intercalée de tokens visuels, audio et textuels, coordonnée par une attention block‑causal pour permettre une génération incrémentale. L'architecture est entièrement causale, avec des VAEs audio‑vidéo causaux, des encodeurs/décodeurs causaux et une génération conjointe de latents par flow matching dont les sorties nettoyées sont réinjectées dans l'historique. Le système atteint environ 200 ms de latence côté modèle et environ 550 ms de latence totale en réseau, avec des unités de streaming de 160 ms à 25 fps, permettant des réponses audio‑visuelles synchronisées en dessous d'une seconde. Pour le déploiement temps réel, le modèle entraîné de bout en bout est scindé en pipeline thinker–performer sur deux GPU pour superposer perception, décodage et génération, et des démonstrations non éditées illustrent un prototype v0.1 en 192p.