Show HN: Unicode Steganography
Le texte explique comment des caractères invisibles et des caractères visuellement similaires peuvent être utilisés pour dissimuler des messages dans du texte ordinaire. Il indique qu'un modèle suffisamment capable pourrait intégrer des signaux covert dans ses sorties, invisibles aux lecteurs humains mais récupérables par un autre modèle ou processus. Les deux techniques présentées, insertion de caractères zéro-largeur et substitution par des homoglyphes, offrent des compromis différents en matière de détectabilité, capacité et robustesse. Des contrôles automatiques, comme la vérification des catégories Unicode pour les caractères invisibles et la détection d'alphabets homoglyphes pour les substitutions cyrilliques, permettent de repérer ces astuces. La question centrale pour l'alignement de l'IA est de savoir si un modèle pourrait inventer un encodage qui trompe à la fois les humains et les scanners automatiques qu'il n'a pas rencontrés auparavant.