Categorías: Noticias

GPT-5.6 Sol de OpenAI llega en vista previa limitada con foco en código, biología y ciberseguridad

GPT-5.6 Sol queda acotado a socios seleccionados y muestra pruebas en código, biología y ciberseguridad con costos diferenciados

OpenAI presentó GPT-5.6 como una serie compuesta por Sol, Terra y Luna, con una separación explícita entre mayor capacidad, equilibrio de uso y menor costo operativo. Sol queda ubicado como el modelo principal, Terra aparece orientado a tareas cotidianas con una relación más equilibrada entre rendimiento y uso, y Luna apunta a respuestas más rápidas con menor costo.

OpenAI inicia el acceso a GPT-5.6 con socios seleccionados antes del lanzamiento amplio

GPT-5.6 todavía no estará disponible de forma general para usuarios, desarrolladores u organizaciones fuera del grupo elegido. OpenAI señala que primero trabajará con un número reducido de socios confiables, antes de llevar la serie a ChatGPT, Codex y la API.

La restricción responde a una solicitud del Gobierno de Estados Unidos, después de que OpenAI compartiera con esa administración sus planes y las capacidades de los modelos antes del lanzamiento. La empresa también informó qué socios participarían en esta etapa, vinculada a un marco de trabajo asociado a una orden ejecutiva de ciberseguridad.

OpenAI sostiene que este procedimiento no debería transformarse en la ruta permanente para futuros modelos. La compañía lo presenta como una medida temporal mientras prepara una apertura más amplia durante las próximas semanas.

GPT-5.6 Sol suma razonamiento max y modo ultra con subagentes

OpenAI presenta a GPT-5.6 Sol como su modelo más capaz hasta ahora y lo acompaña de dos cambios de uso relevantes para tareas complejas. El primero es un nuevo esfuerzo de razonamiento llamado max, pensado para dar más tiempo de procesamiento a Sol, y el segundo es ultra, un modo que usa subagentes para abordar trabajos que exceden la ejecución de un solo agente.

Terminal-Bench 2.1 mide tareas que requieren planificación, iteración y coordinación con herramientas, y la gráfica muestra a GPT-5.6 Sol Ultra con 91,9%, por encima de GPT-5.6 Sol y de los demás modelos incluidos en la comparación.

TerminalBench 2.1 compara el puntaje de distintos modelos en tareas de línea de comandos; GPT-5.6 Sol Ultra aparece con el resultado más alto de la gráfica. | Créditos: OpenAI.

GeneBench v1 muestra el desempeño en genómica y biología cuantitativa

OpenAI también presenta resultados en GeneBench v1, una evaluación orientada a análisis de genómica y biología cuantitativa de largo horizonte. La compañía afirma que GPT-5.6 Sol obtiene mejores resultados que GPT-5.5 en este tipo de flujos y que lo hace usando menos tokens de salida.

Los resultados en tokens de salida permite observar la relación entre puntaje y cantidad de texto generado por el modelo. En la gráfica, GPT-5.6 Sol alcanza el mayor puntaje entre los modelos mostrados y llega a ese tramo con una curva más eficiente que las variantes Terra, Luna y GPT-5.5.

GeneBench v1 muestra la evolución del puntaje frente a los tokens de salida; GPT-5.6 Sol alcanza el mayor resultado entre las curvas publicadas. | Créditos: OpenAI.

La gráfica en latencia simulada separa el resultado del volumen de tokens y lo relaciona con el tiempo estimado de ejecución. En esta medición, GPT-5.6 Sol conserva la curva superior de puntaje, mientras Terra se mantiene por encima de Luna y se acerca a GPT-5.5 en parte del recorrido.

GeneBench v1 compara el puntaje frente a latencia simulada; la curva de GPT-5.6 Sol queda por encima de las demás variantes incluidas. | Créditos: OpenAI.

En cuanto al por costo de API muestra la misma evaluación desde el gasto estimado por uso. OpenAI señala que sus estimaciones de costo y latencia se basan en simulaciones offline del comportamiento de producción, por lo que los resultados reales pueden variar según factores no cubiertos por la simulación.

GeneBench v1 presenta el puntaje frente al costo estimado de API; GPT-5.6 Sol mantiene el mayor rendimiento relativo dentro de la comparación publicada. | Créditos: OpenAI.

ExploitBench y ExploitGym ubican el salto en tareas de ciberseguridad

OpenAI describe a GPT-5.6 Sol como su modelo más capaz para ciberseguridad y lo relaciona con tareas de investigación de vulnerabilidades y explotación en horizontes largos. En ExploitBench, la compañía indica que Sol resulta competitivo con Mythos Preview usando cerca de un tercio de los tokens de salida.

ExploitBench mide el rendimiento frente al uso de tokens

La gráfica de ExploitBench muestra la relación entre porcentaje de capacidad y tokens de salida. GPT-5.6 Sol sube con menos tokens que las demás variantes de OpenAI, mientras las referencias externas aparecen marcadas como puntos o líneas de comparación.

ExploitBench compara el porcentaje de capacidad frente a tokens de salida; GPT-5.6 Sol aparece como la curva superior entre los modelos GPT-5.6 publicados. | Créditos: OpenAI.

ExploitGym evalúa escenarios de explotación con límites de tiempo

ExploitGym aparece como otra prueba para medir capacidades de ciberseguridad en escenarios de mayor duración. OpenAI señala que este benchmark fue creado por investigadores de UC Berkeley en colaboración con la empresa y otros laboratorios de modelos avanzados.

La gráfica por tokens de salida de ExploitGym muestra resultados con límites de dos y seis horas. La curva punteada representa el límite de seis horas y permite ver cómo el rendimiento cambia cuando el modelo dispone de más margen operativo dentro de la evaluación.

ExploitGym muestra los exploits previstos frente a tokens de salida, con líneas separadas para límites de dos y seis horas. | Créditos: OpenAI.

Por su parte, la latencia simulada presenta el mismo tipo de resultado medido contra tiempo. La firma afirma que al reescalar latencias desde su API alfa a velocidades esperadas para la API pública, algunas estimaciones pueden superar los límites de dos y seis horas aunque la ejecución de evaluación haya respetado esos límites.

ExploitGym compara exploits previstos frente a latencia simulada; la gráfica distingue resultados bajo límites de dos y seis horas. | Créditos: OpenAI.

La medición por costo traslada los resultados de ExploitGym a gasto estimado de API. La comparación muestra cuánto rendimiento obtiene cada modelo cuando el límite práctico ya no es solo el tiempo o la cantidad de tokens, sino también el presupuesto de ejecución.

ExploitGym muestra los exploits previstos frente al costo estimado de API; GPT-5.6 Sol mantiene la curva superior dentro de la familia GPT-5.6. | Créditos: OpenAI.

OpenAI acompaña las capacidades de ciberseguridad con controles por capas

OpenAI afirma que GPT-5.6 Sol, Terra y Luna fueron desarrollados con sus controles de seguridad más robustos hasta ahora, ajustados según las capacidades de cada modelo. La firma indica que busca restringir usos ofensivos prohibidos sin limitar trabajo legítimo como revisión de código, investigación de vulnerabilidades, desarrollo de parches, depuración, educación en seguridad y pruebas defensivas.

La firma de Sam Altman apunta a que GPT-5.6 Sol es la mejor IA para ayudar a encontrar y corregir vulnerabilidades que para ejecutar ataques completos de extremo a extremo. En pruebas con Chromium y Firefox, OpenAI reporta que el modelo identificó errores y primitivas de explotación, pero no produjo de forma autónoma una cadena funcional completa bajo las condiciones evaluadas.

El sistema de resguardos descrito por OpenAI incluye rechazos entrenados en el modelo, clasificadores en tiempo real para riesgos de ciberseguridad y biología, revisión de actividad a nivel de cuenta, acceso diferenciado, monitoreo, medidas de aplicación y pruebas continuas.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....

Publicado por