Un estudio en Science compara OpenAI o1 con médicos y modelos previos en razonamiento clínico, usando casos del NEJM y urgencias reales.

Imagen de contexto | Creada con IA.
El estudio Performance of a large language model on the reasoning tasks of a physician, publicado en Science, evaluó la serie OpenAI o1 frente a cientos de médicos en tareas de diagnóstico, selección de exámenes y manejo clínico. El trabajo se organizó en seis experimentos: algunos usaron casos clínicos complejos del New England Journal of Medicine y uno comparó segundas opiniones en 76 casos reales del servicio de urgencias del Beth Israel Deaconess Medical Center.
El estudio mezcló casos médicos preparados para evaluación con casos reales de urgencias. OpenAI o1 fue comparado con médicos y también con GPT-4 o GPT-4o, para revisar si el nuevo modelo mejoraba los resultados de sistemas anteriores.
El objetivo no fue medir respuestas generales sobre medicina, sino comparar el desempeño del modelo en tareas cercanas al diagnóstico y la toma de decisiones clínicas.
El estudio organizó la comparación en seis grupos de pruebas, que cubren desde casos académicos estructurados hasta datos reales de atención hospitalaria:
En los casos clinicopatológicos del New England Journal of Medicine, los resultados centrales se entienden mejor separados por tipo de comparación:
El gráfico compara distintos sistemas clínicos y modelos de lenguaje según el porcentaje de casos en que incluyeron el diagnóstico correcto dentro del diagnóstico diferencial. o1-preview aparece como el modelo con mejor desempeño entre los sistemas comparados, por encima de GPT-4 y de herramientas previas de apoyo diagnóstico, mientras las barras negras muestran el margen de incertidumbre de cada estimación.
El estudio comparó o1-preview con GPT-4 en un subconjunto de 70 casos clínicos que ya había servido para evaluar modelos anteriores. La diferencia se midió según diagnósticos exactos o muy cercanos:
La visualización resume esa comparación directa sobre los mismos 70 casos clínicos. o1-preview quedó por encima de GPT-4 en el porcentaje de respuestas exactas o muy cercanas, con una diferencia estadísticamente significativa.
El estudio también revisó si o1-preview podía escoger el siguiente examen diagnóstico en casos del New England Journal of Medicine. Dos médicos evaluaron esas respuestas dentro de un conjunto de 136 casos:
El gráfico muestra cómo fueron clasificadas las recomendaciones de o1-preview para pedir el siguiente examen. La mayor parte de las respuestas quedó en la categoría “exactamente correcto”, una fracción menor fue considerada útil y solo una proporción muy baja fue clasificada como no útil.
El experimento más cercano a una situación médica cotidiana usó registros reales del servicio de urgencias del Beth Israel Deaconess Medical Center. En esa comparación, o1, GPT-4o y dos médicos especialistas entregaron diagnósticos diferenciales en tres momentos de la atención.
Los resultados publicados para o1 y los dos médicos comparadores se ordenan así:
El gráfico muestra la proporción de respuestas con puntaje alto, equivalente a diagnósticos exactos o muy cercanos, en tres momentos de la atención:
Harvard Magazine destaca precisamente ese punto, porque la evaluación inicial de urgencias ocurre con menos información disponible y exige decisiones rápidas. También subraya dos usos posibles:
Los autores remarcan que el estudio midió desempeño basado en texto, mientras la práctica médica real incluye conversación con el paciente, examen físico, imágenes médicas, señales fisiológicas, electrocardiogramas y otros datos no textuales. Esa limitación es central para interpretar los resultados, porque los modelos de lenguaje trabajan mejor cuando la información ya está escrita y ordenada.
El propio análisis plantea la necesidad de ensayos prospectivos antes de integrar estos sistemas en atención clínica regular. También advierte que los experimentos se concentraron en medicina interna y urgencias, por lo que no representan toda la práctica médica ni especialidades con decisiones quirúrgicas u otros procedimientos.
La conclusión del estudio es que OpenAI o1 ya supera varios puntos de referencia de razonamiento clínico basados en texto. El siguiente paso es probar su uso en ensayos prospectivos con supervisión médica y métricas de seguridad, no plantearlo como reemplazo del médico.