OpenAI's o1 correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors
Une étude de Harvard publiée dans la revue Science a montré que des modèles de langage de grande taille surpassent des médecins humains lors de tris d'urgence basés sur des dossiers textuels. Dans un essai sur 76 patients, l'IA a identifié le diagnostic exact ou très proche dans 67 % des cas contre 50–55 % pour des médecins et atteignait 82 % lorsque davantage d'informations étaient disponibles. L'IA a aussi élaboré des plans de traitement plus performants dans des études de cas simulées, obtenant 89 % de score contre 34 % pour des médecins utilisant des ressources conventionnelles. Les auteurs et experts soulignent cependant que l'étude portait uniquement sur des données textuelles, sans évaluer la lecture des signes visuels ou la détresse du patient, et voient l'IA comme un second avis intégrable dans un modèle de soins à trois (médecin, patient, IA). Des questions demeurent sur la responsabilité en cas d'erreur, les biais selon les populations, la tendance des cliniciens à se fier à l'IA, et sur les conditions d'utilisation clinique malgré la montée des investissements et de l'adoption.