GPT-5.6 Sol queda acotado a socios seleccionados y muestra pruebas en código, biología y ciberseguridad con costos diferenciados

Creado con IA
OpenAI presentó GPT-5.6 como una serie compuesta por Sol, Terra y Luna, con una separación explícita entre mayor capacidad, equilibrio de uso y menor costo operativo. Sol queda ubicado como el modelo principal, Terra aparece orientado a tareas cotidianas con una relación más equilibrada entre rendimiento y uso, y Luna apunta a respuestas más rápidas con menor costo.
GPT-5.6 todavía no estará disponible de forma general para usuarios, desarrolladores u organizaciones fuera del grupo elegido. OpenAI señala que primero trabajará con un número reducido de socios confiables, antes de llevar la serie a ChatGPT, Codex y la API.
La restricción responde a una solicitud del Gobierno de Estados Unidos, después de que OpenAI compartiera con esa administración sus planes y las capacidades de los modelos antes del lanzamiento. La empresa también informó qué socios participarían en esta etapa, vinculada a un marco de trabajo asociado a una orden ejecutiva de ciberseguridad.
OpenAI sostiene que este procedimiento no debería transformarse en la ruta permanente para futuros modelos. La compañía lo presenta como una medida temporal mientras prepara una apertura más amplia durante las próximas semanas.
OpenAI presenta a GPT-5.6 Sol como su modelo más capaz hasta ahora y lo acompaña de dos cambios de uso relevantes para tareas complejas. El primero es un nuevo esfuerzo de razonamiento llamado max, pensado para dar más tiempo de procesamiento a Sol, y el segundo es ultra, un modo que usa subagentes para abordar trabajos que exceden la ejecución de un solo agente.
Terminal-Bench 2.1 mide tareas que requieren planificación, iteración y coordinación con herramientas, y la gráfica muestra a GPT-5.6 Sol Ultra con 91,9%, por encima de GPT-5.6 Sol y de los demás modelos incluidos en la comparación.
OpenAI también presenta resultados en GeneBench v1, una evaluación orientada a análisis de genómica y biología cuantitativa de largo horizonte. La compañía afirma que GPT-5.6 Sol obtiene mejores resultados que GPT-5.5 en este tipo de flujos y que lo hace usando menos tokens de salida.
Los resultados en tokens de salida permite observar la relación entre puntaje y cantidad de texto generado por el modelo. En la gráfica, GPT-5.6 Sol alcanza el mayor puntaje entre los modelos mostrados y llega a ese tramo con una curva más eficiente que las variantes Terra, Luna y GPT-5.5.
La gráfica en latencia simulada separa el resultado del volumen de tokens y lo relaciona con el tiempo estimado de ejecución. En esta medición, GPT-5.6 Sol conserva la curva superior de puntaje, mientras Terra se mantiene por encima de Luna y se acerca a GPT-5.5 en parte del recorrido.
En cuanto al por costo de API muestra la misma evaluación desde el gasto estimado por uso. OpenAI señala que sus estimaciones de costo y latencia se basan en simulaciones offline del comportamiento de producción, por lo que los resultados reales pueden variar según factores no cubiertos por la simulación.
OpenAI describe a GPT-5.6 Sol como su modelo más capaz para ciberseguridad y lo relaciona con tareas de investigación de vulnerabilidades y explotación en horizontes largos. En ExploitBench, la compañía indica que Sol resulta competitivo con Mythos Preview usando cerca de un tercio de los tokens de salida.
La gráfica de ExploitBench muestra la relación entre porcentaje de capacidad y tokens de salida. GPT-5.6 Sol sube con menos tokens que las demás variantes de OpenAI, mientras las referencias externas aparecen marcadas como puntos o líneas de comparación.
ExploitGym aparece como otra prueba para medir capacidades de ciberseguridad en escenarios de mayor duración. OpenAI señala que este benchmark fue creado por investigadores de UC Berkeley en colaboración con la empresa y otros laboratorios de modelos avanzados.
La gráfica por tokens de salida de ExploitGym muestra resultados con límites de dos y seis horas. La curva punteada representa el límite de seis horas y permite ver cómo el rendimiento cambia cuando el modelo dispone de más margen operativo dentro de la evaluación.
Por su parte, la latencia simulada presenta el mismo tipo de resultado medido contra tiempo. La firma afirma que al reescalar latencias desde su API alfa a velocidades esperadas para la API pública, algunas estimaciones pueden superar los límites de dos y seis horas aunque la ejecución de evaluación haya respetado esos límites.
La medición por costo traslada los resultados de ExploitGym a gasto estimado de API. La comparación muestra cuánto rendimiento obtiene cada modelo cuando el límite práctico ya no es solo el tiempo o la cantidad de tokens, sino también el presupuesto de ejecución.
OpenAI afirma que GPT-5.6 Sol, Terra y Luna fueron desarrollados con sus controles de seguridad más robustos hasta ahora, ajustados según las capacidades de cada modelo. La firma indica que busca restringir usos ofensivos prohibidos sin limitar trabajo legítimo como revisión de código, investigación de vulnerabilidades, desarrollo de parches, depuración, educación en seguridad y pruebas defensivas.
La firma de Sam Altman apunta a que GPT-5.6 Sol es la mejor IA para ayudar a encontrar y corregir vulnerabilidades que para ejecutar ataques completos de extremo a extremo. En pruebas con Chromium y Firefox, OpenAI reporta que el modelo identificó errores y primitivas de explotación, pero no produjo de forma autónoma una cadena funcional completa bajo las condiciones evaluadas.
El sistema de resguardos descrito por OpenAI incluye rechazos entrenados en el modelo, clasificadores en tiempo real para riesgos de ciberseguridad y biología, revisión de actividad a nivel de cuenta, acceso diferenciado, monitoreo, medidas de aplicación y pruebas continuas.