Consistency diffusion language models: Up to 14x faster, no quality loss
Les auteurs présentent les modèles de diffusion linguistique de cohérence (CDLM), qui accélèrent l'inférence en combinant une finalisation multi-tokens fondée sur la cohérence et une mise en cache KV par blocs. Les DLM raffinent progressivement une séquence partiellement masquée sur plusieurs étapes et offrent un potentiel de génération parallèle, mais souffrent d'une attention bidirectionnelle complète et d'un grand nombre d'étapes de raffinement. CDLM s'attaque à ces goulets d'étranglement par une recette d'entraînement postérieure qui rend fiable une réduction du nombre d'étapes tout en autorisant une mise en cache KV exacte par blocs lors des finalisations. L'entraînement combine trois objectifs: distillation des positions nouvellement démasquées, cohérence entre états pour les positions encore masquées et une perte de débruitage masqué standard. Les résultats montrent une réduction des étapes de raffinement et des latences allant jusqu'à 14,5x sur certaines tâches, tout en conservant une précision compétitive et en augmentant le débit.