Categorías: Noticias

OpenAI o1 superó a médicos en pruebas clínicas basadas en texto, según estudio de Harvard publicado en Science

Un estudio en Science compara OpenAI o1 con médicos y modelos previos en razonamiento clínico, usando casos del NEJM y urgencias reales.

El estudio Performance of a large language model on the reasoning tasks of a physician, publicado en Science, evaluó la serie OpenAI o1 frente a cientos de médicos en tareas de diagnóstico, selección de exámenes y manejo clínico. El trabajo se organizó en seis experimentos: algunos usaron casos clínicos complejos del New England Journal of Medicine y uno comparó segundas opiniones en 76 casos reales del servicio de urgencias del Beth Israel Deaconess Medical Center.

OpenAI o1 fue comparado con médicos en casos clínicos complejos del New England Journal of Medicine

El estudio mezcló casos médicos preparados para evaluación con casos reales de urgencias. OpenAI o1 fue comparado con médicos y también con GPT-4 o GPT-4o, para revisar si el nuevo modelo mejoraba los resultados de sistemas anteriores.

El objetivo no fue medir respuestas generales sobre medicina, sino comparar el desempeño del modelo en tareas cercanas al diagnóstico y la toma de decisiones clínicas.

El estudio organizó la comparación en seis grupos de pruebas, que cubren desde casos académicos estructurados hasta datos reales de atención hospitalaria:

Casos clinicopatológicos del New England Journal of Medicine, usados para evaluar diagnóstico diferencial y selección del siguiente examen diagnóstico
Casos NEJM Healer, orientados a medir la presentación del razonamiento clínico
Casos Grey Matters, centrados en decisiones de manejo clínico
Casos diagnósticos Landmark, basados en viñetas clínicas usadas en evaluaciones previas de sistemas diagnósticos
Casos de razonamiento probabilístico, enfocados en estimaciones antes y después de recibir nueva información clínica
Casos reales de urgencias del Beth Israel Deaconess Medical Center, usados para comparar segundas opiniones de médicos y modelos en distintos momentos de la atención

¿Cómo se comparó Open o1 en diagnóstico diferencial?

En los casos clinicopatológicos del New England Journal of Medicine, los resultados centrales se entienden mejor separados por tipo de comparación:

Diagnósticos exactos o muy cercanos en ese mismo subconjunto: 72,9% con GPT-4.
Diagnóstico correcto dentro del diagnóstico diferencial de o1-preview: 78,3% de los casos.
Diagnósticos exactos o muy cercanos en el subconjunto de 70 casos usado antes para evaluar GPT-4: 88,6% con o1-preview.

Desempeño de sistemas de diagnóstico diferencial en casos del New England Journal of Medicine. | Fuente: Estudio

El gráfico compara distintos sistemas clínicos y modelos de lenguaje según el porcentaje de casos en que incluyeron el diagnóstico correcto dentro del diagnóstico diferencial. o1-preview aparece como el modelo con mejor desempeño entre los sistemas comparados, por encima de GPT-4 y de herramientas previas de apoyo diagnóstico, mientras las barras negras muestran el margen de incertidumbre de cada estimación.

¿Qué cambió frente a GPT-4 en los mismos casos?

El estudio comparó o1-preview con GPT-4 en un subconjunto de 70 casos clínicos que ya había servido para evaluar modelos anteriores. La diferencia se midió según diagnósticos exactos o muy cercanos:

Resultado de o1-preview: 88,6%.
Resultado de GPT-4: 72,9%.
Diferencia entre ambos modelos: 15,7 puntos porcentuales.
Valor p informado por el estudio: 0,015.

Comparación directa entre o1-preview (OpenAI o1) y GPT-4 en diagnósticos exactos o muy cercanos. | Fuente: Estudio

La visualización resume esa comparación directa sobre los mismos 70 casos clínicos. o1-preview quedó por encima de GPT-4 en el porcentaje de respuestas exactas o muy cercanas, con una diferencia estadísticamente significativa.

¿Qué tan útiles fueron los exámenes sugeridos por el modelo OpenAI o1?

El estudio también revisó si o1-preview podía escoger el siguiente examen diagnóstico en casos del New England Journal of Medicine. Dos médicos evaluaron esas respuestas dentro de un conjunto de 136 casos:

Examen elegido correctamente: 87,5% de los casos.
Examen considerado útil: 11% de los casos.
Examen considerado no útil: 1,5% de los casos.

Evaluación de la elección del siguiente examen diagnóstico. | Fuente: Estudio

El gráfico muestra cómo fueron clasificadas las recomendaciones de o1-preview para pedir el siguiente examen. La mayor parte de las respuestas quedó en la categoría “exactamente correcto”, una fracción menor fue considerada útil y solo una proporción muy baja fue clasificada como no útil.

OpenAI o1 fue evaluado con 76 casos reales de urgencias

El experimento más cercano a una situación médica cotidiana usó registros reales del servicio de urgencias del Beth Israel Deaconess Medical Center. En esa comparación, o1, GPT-4o y dos médicos especialistas entregaron diagnósticos diferenciales en tres momentos de la atención.

Los resultados publicados para o1 y los dos médicos comparadores se ordenan así:

Evaluación inicial en urgencias: o1 identificó el diagnóstico exacto o muy cercano en 67,1% de los casos, frente a 55,3% del médico 1 y 50,0% del médico 2.
Evaluación por el médico de urgencias: o1 alcanzó 72,4%, frente a 61,8% del médico 1 y 52,6% del médico 2.
Ingreso a hospitalización o cuidados intensivos: o1 llegó a 81,6%, frente a 78,9% del médico 1 y 69,7% del médico 2.

Comparación ciega entre OpenAI o1, GPT-4o y médicos en 76 casos reales de urgencias. | Fuente: Estudio.

El gráfico muestra la proporción de respuestas con puntaje alto, equivalente a diagnósticos exactos o muy cercanos, en tres momentos de la atención:

OpenAI o1 aparece con ventaja clara en la evaluación inicial y durante la atención del médico de urgencias.
En la etapa de ingreso hospitalario, las diferencias se reducen porque todos los participantes cuentan con más información clínica.

Harvard Magazine destaca precisamente ese punto, porque la evaluación inicial de urgencias ocurre con menos información disponible y exige decisiones rápidas. También subraya dos usos posibles:

Apoyo en la revisión de registros clínicos con datos dispersos
Segunda opinión para reducir diagnósticos omitidos, siempre con supervisión médica.

El estudio no demuestra que el modelo pueda reemplazar a médicos

Los autores remarcan que el estudio midió desempeño basado en texto, mientras la práctica médica real incluye conversación con el paciente, examen físico, imágenes médicas, señales fisiológicas, electrocardiogramas y otros datos no textuales. Esa limitación es central para interpretar los resultados, porque los modelos de lenguaje trabajan mejor cuando la información ya está escrita y ordenada.

El propio análisis plantea la necesidad de ensayos prospectivos antes de integrar estos sistemas en atención clínica regular. También advierte que los experimentos se concentraron en medicina interna y urgencias, por lo que no representan toda la práctica médica ni especialidades con decisiones quirúrgicas u otros procedimientos.

La conclusión del estudio es que OpenAI o1 ya supera varios puntos de referencia de razonamiento clínico basados en texto. El siguiente paso es probar su uso en ensayos prospectivos con supervisión médica y métricas de seguridad, no plantearlo como reemplazo del médico.

Fuentes: Science | Harvard

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....

Publicado por