Un estudio científico uruguayo puso la lupa en conocer qué precisión tienen las herramientas de Inteligencia Artificial (IA) populares como ChatGPT, Claude y Gemini en lamedicina. Los resultados preliminares de las pruebas arrojaron que los modelos de estas tecnologías tuvieron un nivel de acierto de diagnóstico entre el 80% y 90%.
El doctor Líber Fernández, posgrado de la Unidad Académica de Enfermedades Infecciosas de la Facultad de Medicina (Universidad de la República), bajo la tutoría del titular de dicha unidad, el infectólogo Julio Medina, se propuso evaluar el rendimiento de ChatGPT, Claude y Gemini al analizar las historias clínicas reales de pacientes con enfermedades infecciosas del Hospital de Clínicas y el Instituto Nacional de Ortopedia y Traumatología (INOT).
El objetivo del trabajo en curso fue determinar si la precisión diagnóstica de estas tres IA responde al “estándar humano”, si los planteos que ofrecen son “clínicamente razonables”, y si su utilización puede analizarse de “forma sistemática”, más allá del uso espontáneo que se ve en la práctica médica, explicaron ambos a El País.
La investigación no solo evaluó si estas tres herramientas de IA daban o no con el diagnóstico médico, sino que también analizó el proceso por el cual llegaban a él. Es decir, si lo hacían de forma “razonable”, “eficiente”, y “sin poner en riesgo la seguridad del paciente”, agregaron.
El estudio buscó saber si estas IA proponen “estudios innecesarios o agresivos”, si las respuestas incluían errores –que en la jerga tecnológica se denominan “alucinaciones”— y si el razonamiento de las plataformas es “comparable al humano” o responde a una “lógica propia”, explicaron.
“Hallazgos interesantes”
“Los resultados preliminares del estudio sugieren hallazgos interesantes”, indicaron Fernández y Medina. Con respecto al diagnóstico, como se dijo, los niveles de acierto “rondan entre el 80 y 90%, un rendimiento similar al reportado en estudios con médicos especialistas, y por encima del desempeño promedio de médicos generales en contextos comparables”.
No obstante, ChatGPT y Claude lograron un mejor resultado que Gemini al evaluar “la calidad del razonamiento, la claridad en las respuestas, la extensión del discurso (verborragia), la seguridad del paciente y el riesgo de errores”.
Un punto que llamó la atención a los científicos fue que, al clasificar las historias clínicas según el nivel de complejidad, los modelos acertaron o erraron “independientemente de si la historia era sencilla o muy compleja”.
“Son herramientas prometedoras, pero su confiabilidad aún es relativa y depende del contexto”, dijeron. Esto valorando que su mayor utilidad está en “priorizar la información clínica”, pero “no en tomar decisiones por el médico”, añadieron.
“Los modelos muestran una capacidad notable para procesar grandes volúmenes de datos y estructurarlos de forma eficiente, lo que puede facilitar mucho el trabajo médico. Sin embargo, el razonamiento clínico que realizan a partir de esa información todavía no supera y en algunos casos está por debajo de lo que puede hacer un profesional humano”, valoraron.
Las IA antes citadas “son confiables para organizar la información, pero no para completar el razonamiento clínico. Por eso, su uso siempre debe estar acompañado de verificación y supervisión humana”, añadieron.
ChatGPT, Claude o Gemini “pueden ser útiles para explorar ideas o redactar documentos, pero es importante entender que predicen texto: no razonan, no comprenden y, sobre todo, no distinguen entre evidencia robusta y afirmaciones erróneas”, sumaron.
Por qué usarla y los “riesgos” incluidos
El uso de ChatGPT, Claude y Gemini abre varias preguntas. Sobre por qué es importante su uso en la labor médica, plantearon que un contexto en que los datos clínicos son “cada vez más abundantes y complejos”, las IA pueden “ayudar a organizar información, priorizar diagnósticos diferenciales, generar resúmenes clínicos y asistir en la educación médica”.
Fernández y Medina coincidieron en que las tres herramientas “no reemplazan el razonamiento clínico, pero pueden ser un soporte valioso para mejorar la eficiencia y reducir errores por omisión”.
Respecto a qué se debe advertir al momento de usarla, indicaron: “El primer riesgo es asumir que ‘si lo dice la IA, debe ser correcto’”, sobre todo porque estas herramientas “pueden parecer seguras incluso cuando se equivocan”.
Otro aspecto que ponderaron es que, al no tener un “contexto clínico real, no tienen acceso a la historia completa del paciente ni a la experiencia humana, y pueden proponer decisiones que no son apropiadas”. Por ello, es que sugieren que el médico “debe interpretar sus respuestas con criterio”.
Si bien valoraron que, con “supervisión profesional”, estas populares IA pueden ser una “herramienta complementaria valiosa”, también advierten que su uso sigue estando en una fase experimental y “no forman parte de protocolos estandarizados”.
Otro aspecto que subyace frente al rápido avance, sobre todo desde la aparición de ChatGPT en noviembre de 2022, es si estas tecnologías vienen a suplantar al médico. “No”, coincidieron frente a esa consulta.
“Estas tecnologías no tienen conciencia, juicio clínico ni responsabilidad profesional. Son herramientas que procesan datos y lenguaje, pero no reemplazan la experiencia humana, el vínculo con el paciente, ni la toma de decisiones clínicas en contexto”, destacaron.
Los científicos indicaron que la tarea que lleva adelante el médico involucra componentes “emocionales, éticos, sociales y técnicos”, que actualmente no son “replicables por ninguna inteligencia artificial”.
“Lo que sí sabemos es que hoy falla en muchas etapas previas al diagnóstico, como la recolección de datos, la interpretación del lenguaje corporal, la comunicación empática, y la toma de decisiones éticas”, acotaron.
“La inteligencia artificial puede ser una gran aliada, pero el rol central del médico está lejos de desaparecer”, remataron Fernández y Medina.