Des préoccupations émergent autour d’un outil de prise de notes médicales après qu’une découverte révèle qu’il fabrique des informations non communiquées.

Des préoccupations émergent autour d'un outil de prise de notes médicales après qu'une découverte révèle qu'il fabrique des informations non communiquées.

Des chercheurs ont révélé que l’outil de transcription audio Whisper d’OpenAI génère souvent des hallucinations, avec des erreurs notables dans jusqu’à 80 % des transcriptions examinées. Ces inexactitudes posent des risques, en particulier dans le domaine médical, où Whisper est utilisé. Bien que Nabla, un assistant d’IA, intègre Whisper, l’entreprise admet les limitations de cet outil et encourage les cliniciens à vérifier les publications. Malgré ces préoccupations, aucune plainte liée à des erreurs de transcription n’a encore été signalée.

Des chercheurs et ingénieurs ayant utilisé l’outil de transcription audio Whisper d’OpenAI rapportent que celui-ci produit fréquemment des erreurs, connues sous le nom d’hallucinations, où le texte généré ne correspond pas exactement aux enregistrements originaux. Selon des informations de l’Associated Press, un universitaire de l’université du Michigan a constaté que 80 % des transcriptions de cet outil d’IA qu’il a examinées contenaient des éléments inventés, l’amenant à chercher des améliorations.

L’hallucination de l’IA n’est pas un phénomène inédit, et les chercheurs ont tenté d’y remédier en intégrant des outils tels que l’entropie sémantique. Toutefois, l’inquiétude grandit, car Whisper est largement utilisé dans le secteur médical où des erreurs peuvent avoir des conséquences graves.

Un exemple concret illustre la problématique : un intervenant a par exemple déclaré, « Il, le garçon, allait, je ne suis pas sûr exactement, prendre le parapluie », tandis que Whisper a transcrit : « Il a pris un gros morceau de croix, un tout petit morceau … Je suis sûr qu’il n’avait pas de couteau de terreur, alors il a tué un certain nombre de personnes. » Dans une autre instance, une phrase « deux autres filles et une dame » a été transformée en « deux autres filles et une dame, hum, qui étaient noires ». Un cas lié à la santé a révélé que Whisper a indiqué « antibiotiques hyperactivés », un terme qui n’existe pas dans le jargon médical.

Nabla, l’assistant IA utilisé par plus de 45 000 professionnels de la santé

Malgré ces préoccupations, Nabla, un assistant IA qui soutient les professionnels de santé dans la transcription des interactions patient-médecin et la rédaction de notes post-visite, continue de s’appuyer sur Whisper. L’entreprise déclare que son outil est adopté par plus de 45 000 cliniciens dans plus de 85 établissements médicaux, y compris le Children’s Hospital Los Angeles et la Mankato Clinic dans le Minnesota.

Bien que Nabla utilise Whisper, le CTO Martin Raison précise que l’outil a été ajusté pour le vocabulaire médical, afin d’améliorer la précision des transcriptions et résumés. Cependant, OpenAI déconseille vivement l’utilisation de Whisper pour des transcriptions critiques, mettant en garde contre son emploi dans des « situations de prise de décision, où des erreurs pourraient gravement affecter les résultats. »

Nabla admet être consciente de la propension de Whisper à générer des hallucinations et a déjà commencé à aborder cette problématique. Raison a néanmoins indiqué qu’il n’est pas possible de comparer la transcription AI avec l’enregistrement audio d’origine puisque leur système élimine automatiquement l’audio original pour des raisons de confidentialité et de sécurité des données. Heureusement, aucune plainte formelle n’a été déposée contre un professionnel de santé suite à des erreurs de transcription provenant de ces outils IA.

Cependant, William Saunders, un ancien ingénieur d’OpenAI, a souligné que la suppression de l’enregistrement original pourrait poser problème, car cela empêcherait les professionnels de santé de vérifier l’exactitude des données. « Vous ne pouvez pas détecter les erreurs si vous effacez la vérité de terrain », a-t-il commenté.

Cependant, Nabla demande à ses utilisateurs de relire et valider les notes générées. Cela signifie que si l’IA peut produire le rapport pendant la consultation, le médecin aura la possibilité de vérifier les informations en se basant sur sa mémoire récente, ou même de confirmer les détails avec le patient si des inexactitudes sont soupçonnées.

Il est essentiel de rappeler que l’IA ne constitue pas une solution infaillible – plutôt, elle devrait être perçue comme un outil capable de traiter l’information rapidement, mais nécessitant une vérification systématique de ses résultats. Bien que l’IA soit indéniablement bénéfique dans un grand nombre de contextes, il est crucial de ne pas lui confier la responsabilité complète de la prise de décision – du moins, pas pour le moment.