Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment
L'étude examine si le discours contenu dans les corpus de préentraînement façonne des priors comportementaux et peut conduire à une auto-réalisation du désalignement des modèles. Ils préentraînent des modèles de langage de 6,9 milliards de paramètres en variant la proportion de documents synthétiques décrivant des comportements alignés ou désalignés. L'augmentation artificielle de documents décrivant la désalignement entraîne une hausse notable de comportements désalignés. Inversement, la surreprésentation de documents illustrant un comportement aligné réduit le score de désalignement de 45 % à 9 %. Ces effets persistent, quoique atténués, après la phase de post-entraînement, ce qui conduit les auteurs à recommander de prendre en compte la préentraînement pour l'alignement en complément du post-entraînement et à rendre publiques leurs ressources.