Herramienta de transcripción impulsada por inteligencia artificial utilizada en hospitales supuestamente inventa cosas que nadie ha dicho – Nacional

El gigante tecnológico OpenAI ha destacado su herramienta de transcripción impulsada por inteligencia artificial Whisper como teniendo una “robustez y precisión cercanas al nivel humano”.

Pero Whisper tiene una gran falla: tiende a inventar fragmentos de texto o incluso frases enteras, según entrevistas con más de una docena de ingenieros de software, desarrolladores e investigadores académicos. Esos expertos dijeron que algunos de los textos inventados, conocidos en la industria como alucinaciones, pueden incluir comentarios raciales, retórica violenta e incluso tratamientos médicos imaginarios.
Los expertos dijeron que tales fabricaciones son problemáticas porque Whisper se está utilizando en una gran cantidad de industrias en todo el mundo para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.

Más preocupante, dijeron, es la prisa de los centros médicos por utilizar herramientas basadas en Whisper para transcribir las consultas de los pacientes con los médicos, a pesar de las advertencias de OpenAI de que la herramienta no debería usarse en “dominios de alto riesgo”.

La extensión completa del problema es difícil de determinar, pero los investigadores e ingenieros dijeron que con frecuencia se han encontrado con alucinaciones de Whisper en su trabajo. Por ejemplo, un investigador de la Universidad de Michigan que estaba realizando un estudio de reuniones públicas dijo que encontró alucinaciones en 8 de cada 10 transcripciones de audio que inspeccionó, antes de comenzar a intentar mejorar el modelo.
Un ingeniero de aprendizaje automático dijo que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que encontró alucinaciones en casi todas las 26,000 transcripciones que creó con Whisper.
Los problemas persisten incluso en muestras cortas de audio bien grabadas. Un estudio reciente realizado por científicos de la computación descubrió 187 alucinaciones en más de 13,000 fragmentos de audio claros que examinaron.
Esa tendencia llevaría a decenas de miles de transcripciones defectuosas en millones de grabaciones, dijeron los investigadores.
Tales errores podrían tener “consecuencias realmente graves”, especialmente en entornos hospitalarios, dijo Alondra Nelson, quien dirigió la Oficina de Política Científica y Tecnológica de la Casa Blanca para la administración de Biden hasta el año pasado.

LEAR ¿Está México listo para abrir la puerta de la inversión en energía verde?

“Nadie quiere un mal diagnóstico”, dijo Nelson, profesora del Instituto de Estudios Avanzados en Princeton, Nueva Jersey. “Debería haber un estándar más alto”.

También se utiliza Whisper para crear subtítulos para sordos y personas con problemas de audición, una población particularmente en riesgo de transcripciones defectuosas. Eso se debe a que los sordos y personas con problemas de audición no tienen forma de identificar las fabricaciones que están “ocultas entre todo este otro texto”, dijo Christian Vogler, que es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.

Se insta a OpenAI a abordar el problema. La prevalencia de tales alucinaciones ha llevado a expertos, defensores y ex empleados de OpenAI a pedir al gobierno federal que considere regulaciones sobre la inteligencia artificial. Como mínimo, dijeron, OpenAI debe abordar la falla.

“Esto parece solucionable si la compañía está dispuesta a priorizarlo”, dijo William Saunders, un ingeniero de investigación con sede en San Francisco que renunció a OpenAI en febrero debido a preocupaciones con la dirección de la empresa. “Es problemático si lanzas esto y la gente está demasiado segura de lo que puede hacer e integra todo esto en otros sistemas”.

Un portavoz de OpenAI dijo que la compañía estudia continuamente cómo reducir las alucinaciones y agradeció los hallazgos de los investigadores, añadiendo que OpenAI incorpora comentarios en las actualizaciones del modelo.

Si bien la mayoría de los desarrolladores asumen que las herramientas de transcripción cometen errores de ortografía u otros errores, los ingenieros e investigadores dijeron que nunca habían visto otra herramienta de transcripción impulsada por inteligencia artificial alucinar tanto como Whisper.
Las alucinaciones de Whisper. La herramienta está integrada en algunas versiones del chatbot insignia de OpenAI, ChatGPT, y es una oferta incorporada en las plataformas de cómputo en la nube de Oracle y Microsoft, que prestan servicios a miles de empresas en todo el mundo. También se utiliza para transcribir y traducir texto a múltiples idiomas.
Solo el mes pasado, una versión reciente de Whisper se descargó más de 4.2 millones de veces desde la plataforma de inteligencia artificial de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático allí, dijo que Whisper es el modelo de reconocimiento de voz de código abierto más popular y está integrado en todo, desde centros de llamadas hasta asistentes de voz.

LEAR El yen se desploma mientras el BOJ se muestra optimista, el dólar acosado por las expectativas de tasas. Por Reuters.

Las profesoras Allison Koenecke de la Universidad de Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un repositorio de investigación alojado en la Universidad Carnegie Mellon. Determinaron que casi el 40% de las alucinaciones eran dañinas o preocupantes porque el hablante podría ser malinterpretado o representado incorrectamente.

En un ejemplo que descubrieron, un hablante dijo: “Él, el niño, iba a, no estoy seguro exactamente, tomar el paraguas”.
Pero el software de transcripción agregó: “Tomó un gran trozo de una cruz, un trozo muy pequeño … Estoy seguro de que no tenía un cuchillo de terror así que mató a varias personas”.

En otra grabación, un hablante describió “dos chicas y una señora”. Whisper inventó comentarios adicionales sobre raza, agregando “dos chicas y una dama, eh, que eran Negras”.
En una tercera transcripción, Whisper inventó un medicamento inexistente llamado “antibióticos hiperactivados”.

Los investigadores no están seguros de por qué Whisper y herramientas similares alucinan, pero los desarrolladores de software dijeron que las fabricaciones tienden a ocurrir en medio de pausas, sonidos de fondo o música que se está reproduciendo.

OpenAI recomendó en sus divulgaciones en línea no utilizar Whisper en “contextos de toma de decisiones, donde los errores en la precisión pueden llevar a defectos pronunciados en los resultados”.

Transcribir citas médicas. Esa advertencia no ha detenido a hospitales o centros médicos de utilizar modelos de voz a texto, incluido Whisper, para transcribir lo que se dice durante las visitas al médico para liberar a los proveedores médicos para que pasen menos tiempo tomando notas o escribiendo informes.

LEAR Estos viajes en tren a través de los colores del otoño en Canadá te dejarán sin palabras.

Más de 30,000 médicos y 40 sistemas de salud, incluidas la Clínica Mankato en Minnesota y el Hospital de Niños de Los Ángeles, han comenzado a utilizar una herramienta basada en Whisper construida por Nabla, que tiene oficinas en Francia y Estados Unidos.

Los oficiales de la compañía dijeron que son conscientes de que Whisper puede alucinar y están mitigando el problema.
Es imposible comparar la transcripción generada por inteligencia artificial de Nabla con la grabación original porque la herramienta de Nabla borra el audio original por “razones de seguridad de datos”, dijo Raison.
Nabla dijo que la herramienta se ha utilizado para transcribir aproximadamente 7 millones de visitas médicas.
Saunders, el ex ingeniero de OpenAI, dijo que borrar el audio original podría ser preocupante si las transcripciones no se verifican dos veces o si los médicos no pueden acceder a la grabación para verificar que sean correctas.
“No puedes detectar errores si eliminas la verdad fundamental”, dijo.

Nabla dijo que ningún modelo es perfecto y que actualmente requiere que los proveedores médicos editen y aprueben rápidamente las notas transcritas, pero eso podría cambiar.

Preocupaciones de privacidad. Debido a que las reuniones de pacientes con sus médicos son confidenciales, es difícil saber cómo las transcripciones generadas por inteligencia artificial les están afectando.
Una legisladora estatal de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico a principios de este año y se negó a firmar un formulario que la red de salud proporcionó y que buscaba su permiso para compartir el audio de la consulta con proveedores que incluían Microsoft Azure, el sistema de cómputo en la nube dirigido por el mayor inversor de OpenAI. Bauer-Kahan no quería que esas conversaciones médicas íntimas se compartieran con empresas tecnológicas, dijo.