Using group theory to explore the space of positional encodings for attention
L'attention n'a pas intrinsèquement de notion de position, donc on modifie les requêtes et les clés par des fonctions dépendant du temps pour que les produits scalaires codent la position relative. En imposant linéarité, invariance par translation et continuité, l'encodage positionnel se ramène à une famille de matrices formant un groupe à un paramètre A(t) qui s'exprime comme exp(tX) pour un générateur fixe X. Si X est diagonalisable, l'encodage se décompose en composantes 1D ou 2D produisant soit une décroissance/explosion exponentielle soit des rotations de fréquence fixe, ce qui correspond à des schémas tels que RoPE et ses variantes amorties. Si X est non diagonalisable (défectueux), des termes polynomiaux en temps apparaissent, donnant des encodages techniquement valides mais probablement peu pratiques, bien que certains comme ALiBi puissent s'interpréter via un bloc de Jordan. L'analyse conclut que l'espace des encodages raisonnables est très restreint et que les méthodes couramment utilisées couvrent les cas sensés, tout en laissant ouverte une classe exotique peu explorée.