CAPTCHAs can still detect AI agents
Les CAPTCHAs modernes peuvent être résolus par des modèles VLM, mais les agents n'exécutent pas les tâches de la même façon que les humains, avec des différences statistiques dans les motifs de clics et de décision. Les auteurs présentent CogCAPTCHA30, une batterie de 30 tâches combinant le CAPTCHA classique et 29 tâches de psychologie cognitive pour étudier les processus plutôt que seulement les performances. Les expériences montrent que la performance (output) peut être équivalente entre humains et agents tandis que les caractéristiques de processus sont distinctes et non corrélées avec l'équivalence de sortie. Les modèles de pointe comme GPT, Claude et Gemini sont moins proches des humains dans l'espace des caractéristiques de processus que certains modèles plus petits ou entraînés sur des données comportementales humaines, comme Centaur. Un affinage direct des processus peut rendre un agent plus humain si celui-ci a accès aux caractéristiques et à l'objectif du discriminateur, mais la capacité à généraliser cross-tâche reste limitée, ce qui rend la "Process Turing Test" potentiellement robuste pour la vérification humaine.