Gram Newton-Schulz: A Fast, Hardware-Aware Newton-Schulz Algorithm for Muon
L'optimiseur Muon utilise la décomposition polaire approchée par l'itération de Newton‑Schulz, une opération matricielle en temps cubique qui devient coûteuse surtout pour des matrices rectangulaires à grande échelle. Les auteurs proposent Gram Newton‑Schulz, qui itère sur la petite matrice symétrique de Gram XXᵀ pour remplacer la plupart des multiplications rectangulaires, offrant une version mathématiquement équivalente et beaucoup moins coûteuse en FLOPs. La version naïve révèle des instabilités numériques en demi‑précision liées à des valeurs propres négatives spurielles et à la dérive des vecteurs propres, provoquant des divergences en pratique. La méthode stabilisée introduit un redémarrage après deux itérations, l'utilisation de float16 avec précautions algébriques et des noyaux GEMM symétriques optimisés en CuTeDSL pour préserver la stabilité tout en accélérant le calcul. Les expériences montrent une réduction de 40–50 % du temps d'orthogonalisation (jusqu'à 2× sur certains MoE), une qualité de modèle préservée à ±0,01 de perplexité, et les auteurs publient un remplacement prêt à l'emploi, des noyaux GPU et un outil d'autotuning pour les redémarrages.