Categorías: Noticias

OpenAI lanza GPT-5.5 y detalla sus capacidades operativas para programación, ciencia y ciberseguridad

OpenAI presenta GPT-5.5 con mejoras en programación agente, análisis científico, ciberseguridad e inferencia para tareas prolongadas.

Compartir

OpenAI presentó GPT-5.5 como una nueva generación de modelo orientada a trabajo agente, programación avanzada, análisis científico, automatización de procesos y tareas de ciberseguridad. El anuncio de la firma pone foco en múltiples métricas de rendimiento, eficiencia en inferencia, uso de herramientas y capacidad para sostener operaciones complejas durante flujos de trabajo prolongados.

La compañía acompañó el lanzamiento con resultados en bancos de prueba como:

  • Terminal-Bench 2.0.
  • SWE-Bench Pro.
  • GDPval.
  • OSWorld-Verified.
  • GeneBench.
  • BixBench.
  • CyberGym.

Estas evaluaciones permiten ver el alcance operativo del modelo en código, interfaces computacionales, datos científicos y escenarios de defensa digital.

Tabla comparativa de rendimiento entre GPT-5.5 y otros modelos del sector.

Rendimiento técnico en programación y resolución de software de GPT-5.5

Las evaluaciones centradas en programación muestran que GPT-5.5 alcanzó un 82,7 % en Terminal-Bench 2.0, prueba orientada a flujos complejos de línea de comandos que requieren planificación, iteración y coordinación de herramientas. En SWE-Bench Pro, evaluación basada en la resolución de issues reales de GitHub, el modelo obtuvo un 58,6 %.

El director ejecutivo y cofundador de Cursor, Michael Truell, destacó mejoras en persistencia, uso de herramientas y desempeño de programación en cargas de trabajo extendidas.

GPT-5.5 es notablemente más inteligente y persistente que GPT-5.4, con un rendimiento de codificación más sólido y un uso de herramientas más confiable. Se mantiene en la tarea durante mucho más tiempo sin detenerse antes de tiempo, lo cual es fundamental para el trabajo complejo y de larga duración que nuestros usuarios delegan en Cursor”.

Michael Truell, director ejecutivo y cofundador de Cursor

En Expert-SWE, una evaluación interna para tareas de programación de largo horizonte con una mediana estimada de 20 h de trabajo humano, GPT-5.5 alcanzó un 73,1 %. OpenAI también indica que el modelo mejora los resultados de GPT-5.4 en estas pruebas usando menos tokens.

Análisis de información y automatización de procesos corporativos

En tareas profesionales, GPT-5.5 logró un 84,9 % en GDPval, medición que considera victorias o empates en trabajos definidos a través de 44 ocupaciones. En OSWorld-Verified, evaluación que mide la capacidad de operar entornos computacionales reales de forma autónoma, el modelo registró un 78,7 %.

Gráfico de rendimiento en GDPval mostrando tasas de victorias y empates contra la línea base de la industria. | Créditos: OpenAI
Gráficos de rendimiento en OSWorld-Verified y Tau2-bench Telecom. Tau2-bench Telecom se ejecutó sin ajuste de prompts y con GPT-4.1 como modelo de usuario; GPT-5.5 comprende mejor la intención de la tarea y usa menos tokens que sus predecesores. Créditos: OpenAI. | Créditos: OpenAI

OpenAI señala que su equipo financiero usó Codex con GPT-5.5 para revisar 24.771 formularios fiscales K-1, equivalentes a 71.637 páginas, mediante un flujo que excluyó información personal. Ese proceso permitió acelerar la tarea en dos semanas frente al año anterior.

El vicepresidente de inteligencia artificial empresarial de NVIDIA, Justin Boitano, vinculó el rendimiento del modelo con cargas de ejecución sostenida y trabajo sobre bases de código complejas.

“GPT-5.5 ofrece el rendimiento sostenido requerido para el trabajo intensivo de ejecución. Construido y servido en sistemas NVIDIA GB200 NVL72, el modelo permite a nuestros equipos enviar funciones de extremo a extremo a partir de indicaciones en lenguaje natural, reducir el tiempo de depuración de días a horas y convertir semanas de experimentación en un progreso nocturno en bases de código complejas; es más que una codificación más rápida, es una nueva forma de trabajar que ayuda a las personas a operar a una velocidad fundamentalmente diferente”.

Justin Boitano, VP de inteligencia artificial empresarial de NVIDIA
Tabla de resultados en pruebas de uso de herramientas, con métricas en BrowseComp, MCP Atlas, Toolathlon y Tau2-bench Telecom. En MCP Atlas se usan resultados de Scale AI posteriores a la actualización de abril de 2026; en Tau2-bench Telecom, GPT-5.5 y GPT-5.4 fueron evaluados con prompts originales, sin ajuste adicional.

OpenAI indica que gpt-5.5 estará disponible próximamente en las API Responses y Chat Completions con una tarifa de 5 USD por cada millón de tokens de entrada y 30 USD por cada millón de tokens de salida. Para gpt-5.5-pro, la compañía fija valores de 30 USD por cada millón de tokens de entrada y 180 USD por cada millón de tokens de salida.

Procesamiento de datos científicos y abstracción matemática

En investigación científica, GPT-5.5 mostró mejoras en GeneBench, evaluación centrada en análisis multietapa de datos genéticos y biología cuantitativa, donde obtuvo un 25,0 %. En BixBench, benchmark orientado a bioinformática y análisis de datos en escenarios reales, el modelo alcanzó un 80,5 %.

OpenAI también reporta que una versión interna de GPT-5.5 con un entorno personalizado ayudó a encontrar una demostración sobre números de Ramsey extradiagonales. La prueba fue verificada posteriormente en Lean, lo que la sitúa como un caso de contribución matemática comprobable en combinatoria.

Geometría algebraica

En otro ejemplo, Bartosz Naskręcki, académico de la Universidad Adam Mickiewicz de Poznań, utilizó GPT-5.5 en Codex para construir en 11 min una aplicación de geometría algebraica. El sistema visualizó la intersección de superficies cuadráticas y convirtió la curva resultante en un modelo de Weierstrass.

Prompt: “Intersección de superficies en geometría algebraica. Crea una aplicación que dibuje dos superficies cuadráticas y resalte en rojo la curva de intersección. Usa el teorema computacional de Riemann-Roch para convertirla en una curva de Weierstrass”. | Créditos: Bartosz Naskręcki. | Vía OpenAI

Aplicación en investigación farmacológica

El director ejecutivo y cofundador de Axiom Bio, Brandon White, destacó el uso del modelo en predicción de resultados farmacológicos a partir de conjuntos bioquímicos de gran escala.

“Resulta increíblemente estimulante utilizar el nuevo modelo GPT-5.5 de OpenAI en nuestro entorno, hacer que razone sobre conjuntos de datos bioquímicos masivos para predecir resultados de medicamentos en humanos y luego ver que ofrece ganancias significativas de precisión en nuestras evaluaciones de descubrimiento de fármacos más difíciles. Si OpenAI continúa trabajando de esta manera, los cimientos del descubrimiento de fármacos cambiarán para fin de año”.

Brandon White, director ejecutivo y cofundador de Axiom Bio

Derya Unutmaz, profesor de inmunología e investigador del Jackson Laboratory for Genomic Medicine, utilizó GPT-5.5 Pro para analizar un conjunto de expresión génica con 62 muestras y cerca de 28.000 genes. Según OpenAI, el trabajo produjo un informe de investigación detallado, con hallazgos, preguntas clave e ideas que el equipo habría tardado meses en desarrollar.

Trayectoria de la misión Artemis II

En los ejemplos de desarrollo visual, OpenAI muestra una aplicación interactiva basada en la misión Artemis II, construida con WebGL y Vite a partir de datos reales de NASA/JPL Horizons. El caso apunta a demostrar cómo GPT-5.5 puede transformar una referencia visual y un conjunto de instrucciones técnicas en una simulación funcional, con trayectorias orbitales, cuerpos celestes renderizados y capacidad de interacción en 3D.

Visualización de trayectoria construida con datos vectoriales de NASA/JPL Horizons para Orion, la Luna y el Sol, escalados para facilitar su lectura. | Créditos: OpenAI

Ejemplo: Rastreador de terremotos

En el ejemplo Earthquake tracker (Rastreador de terremotos), OpenAI muestra una aplicación en navegador que organiza actividad sísmica reciente a partir de datos del USGS. La interfaz permite filtrar eventos por ventana temporal, magnitud mínima y sismos mayores, mientras resume métricas como cantidad de eventos, mayor magnitud registrada, proporción de sismos superficiales y hora de actualización.

Aplicación de seguimiento sísmico generada con GPT-5.5 en Codex, con filtros de magnitud y tiempo, métricas resumidas y visualización geográfica de eventos registrados por el USGS.

Ciberseguridad, acceso verificado y evaluación de riesgo

OpenAI plantea las capacidades de ciberseguridad de GPT-5.5 bajo un marco de despliegue controlado, con clasificadores más estrictos para solicitudes de riesgo y acceso diferenciado para usuarios verificados. La compañía sostiene que el objetivo es ampliar el uso defensivo legítimo sin abrir fricción innecesaria para equipos que protegen sistemas críticos.

Las evaluaciones publicadas muestran una mejora frente a GPT-5.4 en los dos benchmarks principales de esta categoría:

  • Capture-the-Flags challenge tasks (Internal): GPT-5.5 obtuvo 88,1%, frente al 83,7% de GPT-5.4.
  • CyberGym: GPT-5.5 alcanzó 81,8%, por sobre el 79,0% de GPT-5.4 y el 73,1% reportado para Claude Opus 4.7.
Resultados de ciberseguridad en Capture-the-Flags y CyberGym. | Créditos: OpenAI

OpenAI también clasifica las capacidades biológicas, químicas y de ciberseguridad de GPT-5.5 en nivel High dentro de su Preparedness Framework, aunque precisa que el modelo no alcanzó el nivel Critical en ciberseguridad. Esta lectura permite presentar el resultado como una mejora operativa relevante, pero no como una liberación irrestricta de capacidades avanzadas.

GPT-5.5 queda planteado como un modelo orientado a ejecución prolongada y trabajo técnico asistido, con mejoras visibles en programación agente, coordinación de herramientas, análisis científico, ciberseguridad e inferencia. Más que una suma de métricas aisladas, el anuncio posiciona al modelo como una infraestructura de apoyo para flujos complejos que requieren persistencia, precisión y eficiencia operacional.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....
Publicado por
Ivan