We hid backdoors in ~40MB binaries and asked AI + Ghidra to find them
Cet article évalue l’utilisation d’agents IA pour détecter des portes dérobées dans des binaires sans code source, via le benchmark BinaryAudit mené avec Michał “Redford” Kowalczyk. Il décrit l’injection de backdoors dans des binaires open-source (lighttpd, dnsmasq, Dropbear et Sozu) et l’évaluation par des outils comme objdump, nm, Ghidra et Radare2 pour localiser les zones malveillantes. Les performances varient selon le modèle: Claude Opus 4.6 atteint 49% de réussite sur certaines tâches et présente un taux élevé de faux positifs dans les tâches négatives (environ 28%). L’article souligne que les IA peinent à cibler les régions à haut risque et peuvent s’égarer dans le code bénin, et que les décompilateurs open-source restent moins fiables que les solutions commerciales comme IDA Pro ou Binary Ninja, notamment pour les binaires Rust et Go. En pratique, l’IA peut aider à un premier audit de sécurité mais n’est pas prête pour une détection fiable en production; des améliorations futures pourraient passer par le contexte, l’accès à des outils commerciaux et l’utilisation de modèles locaux, avec un lien vers le dépôt BinaryAudit pour les résultats complets.