ternarysearch.blogspot.com
Resume pret
HTTP 200
À mesure que les LLMs gagnent en taille, en capacité et en ubiquité, l’interprétabilité mécanistique devient plus importante et l’article explore deux concepts fondamentaux.
Le premier concept, l’hypothèse de représentation linéaire (LRH), propose que les concepts se présentent de manière approximativement linéaire dans l’espace d’embedding et dans l’espace de désembedding.
Park et al. encadrent mathématiquement cette idée en traitant le modèle comme une boîte noire et en montrant que les représentations dans les deux espaces sont isomorphes, ce qui unit interventions et probes.
Les auteurs vérifient empiriquement sur Llama 2 que divers concepts (par exemple le présent et le passé, l’anglais et le français) peuvent être représentés conformément à ce cadre.
La seconde notion, la superposition, explique comment de nombreuses caractéristiques interfèrent dans des espaces de dimension limitée et montre que la non-linéarité et la sparsité permettent de gérer l’interférence, avec des structures régulières observées sur des sphères unitaires et soutenues par le lemme de Johnson-Lindenstrauss.