LoRA and Weight Decay (2023)
LoRA adapte des modèles en ajoutant de petites matrices d'adaptation en basse rangée plutôt que d'ajuster toutes les milliards de poids, ce qui réduit fortement le nombre de paramètres à entraîner et permet de partager le modèle de base entre plusieurs tâches. Lorsque l'on applique la décroissance des poids (weight decay) à LoRA, cette régularisation pousse les matrices d'adaptation A et B vers zéro, ce qui équivaut à régulariser la solution vers le modèle gelé initial (W → W_init) plutôt que vers zéro comme en ajustement complet. En conséquence, l'optimisation implicite de LoRA est différente de celle du fine-tuning complet et cette différence subsiste même en augmentant le rang des adaptateurs, ce qui peut être utile avec peu de données mais limitant quand on dispose de beaucoup de données. On peut corriger ce comportement en régularisant directement la matrice adaptée complète (W_init + A B), ce qui donne des termes de mise à jour concrets pour A et B et peut être implémenté en modifiant la logique de weight decay dans des bibliothèques comme Optax tout en restant compatible avec AdamW. Les praticiens doivent donc être conscients de cette différence d'objectif implicite, choisir la régularisation adaptée au cas d'usage et valider empiriquement l'impact de la stratégie choisie.