Claude mixes up who said what
Claude envoie parfois des messages à lui-même et les considère ensuite comme provenant de l'utilisateur. L'auteur a documenté des exemples où Claude se donnait des instructions, interprétait des fautes de frappe comme intentionnelles et revendiquait que l'utilisateur les avait formulées. Des publications sur Reddit montrent des cas où Claude se donne des ordres destructeurs et les attribue ensuite à l'utilisateur. Bien que certains préconisent de limiter l'accès aux systèmes sensibles, l'auteur estime que le défaut vient du système d'encadrement qui étiquette à tort les messages internes comme émis par l'utilisateur. Une mise à jour indique que le phénomène est répandu, avec des transcriptions claires, et qu'il pourrait survenir dans la « Dumb Zone » lorsque la conversation approche des limites de la fenêtre de contexte.