Pagar por Google AI Ultra no significa exigir una IA perfecta, porque ningún LLM está libre de errores, pérdidas de instrucción o respuestas débiles. La exigencia cambia cuando el plan se ubica en el nivel más alto de Google y promete una mejora visible frente a AI Pro en tareas de texto, investigación y contexto.
El análisis se concentra en el uso más probable dentro de Gemini, no en todo el paquete Ultra. Quedan fuera video, imagen, Flow, Veo y otras funciones creativas, para revisar el flujo que muchos usuarios usarían a diario: chat, Drive, integración con Workspace, Deep Research, Deep Think, cuadernos integrados con NotebookLM y NotebookLM usado directamente.
Si Google AI Pro ya entrega una base sólida para investigar, redactar y ordenar fuentes, el salto a Ultra debería sentirse como una mejora clara en estabilidad, control y continuidad. Tras cerca de 10 días de uso, esa diferencia no aparece con la fuerza suficiente: hay mejoras reales, pero conviven con fallas que obligan a auditar resultados, repetir instrucciones y rodear funciones centrales.

En Estados Unidos, Google AI Ultra fue anunciado por 249,99 USD mensuales, con una tarifa promocional cercana a 100 o 130 USD durante los tres primeros meses. Ese precio eleva la vara: más acceso no basta si la experiencia real sigue sintiéndose irregular en las herramientas de trabajo más usadas.

Diez días bastaron para detectar patrones de falla en Google AI Ultra
La prueba no buscó estresar funciones marginales del paquete, sino trabajar con las herramientas que sostendrían un uso cotidiano en Gemini: redacción, estructura, citas, continuidad de instrucciones y organización de contexto. Por eso la repetición de fallas pesa más que una salida mala aislada.
La redacción técnica deja ver con especial claridad esa terquedad operativa. Cuando el usuario fija una cadencia de párrafos, una estructura de títulos, una forma de citar o un formato de salida, Gemini puede respetar la regla durante un tramo y abandonarla después, como si la instrucción hubiera perdido peso dentro del contexto, aunque siguiera siendo central para el encargo.
Esa falla resulta más incómoda porque muchas respuestas no llegan visiblemente rotas, sino ordenadas, limpias y listas para usar a primera vista. Bajo esa apariencia aparecen invenciones, cambios de criterio, frases mecánicas o decisiones que el usuario nunca pidió, lo que transforma cada entrega en un borrador inestable que debe auditarse antes de avanzar.

Lo más costoso no es corregir una respuesta mala, sino perder tiempo reponiendo instrucciones que el sistema ya había recibido. En un flujo técnico y editorial, cada repetición obliga a interrumpir la tarea, revisar criterios que deberían mantenerse estables y volver a empujar al modelo hacia reglas que ya formaban parte del encargo.
No se trata solo de fallar, sino de no saber cuándo confiar
Un modelo generativo puede equivocarse sin perder utilidad, siempre que sus límites sean reconocibles y su comportamiento permita cierto grado de anticipación. La revisión humana sigue siendo necesaria, pero cambia de naturaleza cuando el usuario sabe dónde debe mirar y qué tipo de error puede esperar.
La alternancia entre solvencia y degradación dentro de tareas similares vuelve frágil la confianza en Google AI Ultra. El mismo sistema que respeta el encargo en una salida puede abandonar minutos después una instrucción ya comprendida, sin entregar una señal clara de cuándo empezó a perder el hilo.
La crítica no se concentra en el error como hecho aislado, sino en la imprevisibilidad de un servicio vendido como premium. Esa irregularidad obliga a trabajar con cautela permanente, casi como si el usuario estuviera probando una versión experimental en lugar de usar una herramienta profesional.
El problema se resume en tres señales:
- Obediencia irregular: Instrucciones comprendidas en un tramo pueden perderse poco después.
- Confianza inestable: Una salida correcta no garantiza continuidad en la siguiente.
- Auditoría permanente: El usuario debe revisar criterio, estructura, datos y tono en cada entrega.
El foro de Google AI Developers ya registra reportes similares sobre instrucciones ignoradas, pérdida de límites de respuesta y mezcla de contexto en Gemini 3.1 Pro.
Workspace y la promesa de escribir donde realmente se trabaja
La integración con Workspace también deja un punto incómodo para un servicio que se presenta como asistente de productividad. Gemini puede sugerir que guarda, crea o modifica contenido en Google Drive, pero en ciertos flujos no cuenta con permisos reales para escribir o sobrescribir archivos directamente, lo que abre espacio a una alucinación de herramienta: la interfaz transmite una acción en curso o completada, mientras el resultado no queda disponible donde el usuario esperaba.
ChatGPT funciona mejor que Gemini para crear, editar y exportar documentos. No está integrado a Workspace, pero resuelve de forma más directa un flujo donde Google AI Ultra debería tener ventaja natural.

Ese tipo de falla es más grave que una respuesta mal redactada, porque afecta la confianza básica en el entorno de trabajo. Si el usuario no puede distinguir cuándo Gemini realmente ejecutó una acción y cuándo solo la simuló conversacionalmente, la integración deja de sentirse como una ventaja premium y pasa a exigir verificación manual sobre documentos, Drive y extensiones conectadas como Keep, Calendar o Tasks.
El soporte de Gemini, un hilo de Google Docs y reportes de usuarios sobre apps conectadas en Workspace ya registran problemas relacionados con escritura, integración y disponibilidad de extensiones.
Deep Research en Ultra: más recursos, pero menos control en informes largos
Deep Research no era el punto débil de Google AI Pro; al contrario, venía funcionando como una de las mejores experiencias de investigación asistida por IA para usuarios que necesitan levantar contexto, ordenar fuentes y construir informes extensos con cierta rapidez. Esa base vuelve más alta la expectativa sobre Google AI Ultra, porque el salto de plan no parte desde una función mediocre, sino desde una herramienta que ya había demostrado utilidad real en flujos técnicos y editoriales.
En Ultra, el atractivo adicional está en la posibilidad de enriquecer los informes con gráficos, tablas y elementos visuales que aportan jerarquía a la lectura. Ese valor no estaba presente con el mismo nivel en Google AI Pro, y por eso podía convertirse en una razón legítima para probar el plan superior cuando el objetivo era producir investigaciones largas, más claras y mejor organizadas para revisión posterior.
La ventana de contexto se degrada en los tramos finales
La falla aparece cuando el informe avanza hacia sus últimos tramos, no cuando Deep Research empieza a trabajar. En varios casos, la primera parte mantiene estructura, fuentes ordenadas y una lectura inicial convincente, hasta que la generación parece perder control sobre la ventana de contexto y comienza a producir cierres que ya no sostienen el mismo estándar.

La captura de la salida degradada muestra un colapso más serio que una simple baja de estilo. El texto repite términos, recicla palabras sin función clara, acumula formulaciones y pierde relación semántica con el encargo original, como si la parte final del informe hubiera quedado atrapada en una generación automática sin control editorial.
Esta falla catastrófica obliga a tratar el cierre como material de descarte, no como una sección que solo necesita edición ligera. Cuando aparecen cadenas redundantes, frases que no avanzan el análisis y bloques desconectados del objetivo inicial, la herramienta deja de funcionar como apoyo de investigación y traslada al usuario la tarea de reconstruir la arquitectura del informe.
La comparación con Google AI Pro vuelve más incómoda porque Ultra no debía demostrar que Deep Research era útil, sino que podía llevarlo más lejos. Si el mayor contexto, junto con tablas y gráficos, era una de las razones para probar el plan superior, la degradación final golpea justo la promesa práctica que debía diferenciarlo.

Seis señales de una promesa que no se sostiene
Visto como herramienta de trabajo, el comportamiento de Deep Research en Ultra deja seis puntos relevantes:
- Google AI Pro ya había dejado una vara alta: Deep Research funcionaba muy bien para investigar, ordenar fuentes y construir informes extensos con utilidad real.
- Ultra prometía llevar esa base más lejos: el mayor contexto, junto con tablas y gráficos, podía convertir los informes largos en piezas más claras, jerarquizadas y fáciles de revisar.
- El informe no falla desde el arranque: la primera parte puede mantener estructura, fuentes ordenadas y una lectura inicial convincente.
- La degradación aparece al final: cuando el texto crece, la ventana de contexto parece perder control y aparecen repeticiones, formulaciones infladas y pérdida de relación con el encargo.
- El cierre deja de ser editable: en los casos más graves, el tramo final pasa a ser material de descarte, no una sección que solo requiere ajustes.
- La promesa de Ultra queda golpeada: si el plan superior debía mejorar informes largos, la degradación final cuestiona justamente el motivo para pagar más.
El foro de Google AI Developers y reportes técnicos recopilados sobre Gemini 3.1 Pro ya describen problemas similares de instrucciones ignoradas y degradación en tareas largas.
NotebookLM funciona; el problema aparece cuando Gemini lo absorbe en Google AI Ultra
NotebookLM sigue siendo la pieza más sólida de la suite de IA de Google para investigación y trabajo con fuentes. En su aplicación propia, el servicio mantiene el eje del cuaderno, ordena archivos, enlaces y búsquedas, y permite construir una relación clara entre materiales recopilados, preguntas del usuario y síntesis final.
Deep Research dentro de NotebookLM sí aporta valor
La búsqueda propia con Deep Research refuerza esa ventaja dentro de NotebookLM, ya que cuando se le pide investigar un tema, la herramienta no se limita a entregar una respuesta conversacional, sino que recopila fuentes, genera un informe de base y lo deja disponible dentro del cuaderno para seguir trabajando sobre ese material.
Dentro de Google AI Ultra, NotebookLM agrega una diferencia concreta frente a la experiencia previa con Google AI Pro: la investigación no queda reducida a una respuesta conversacional, ya que genera un informe desde las fuentes recopiladas que pasa a integrarse al cuaderno como material de trabajo. Esa salida queda disponible para revisar, cruzar y continuar, sin perderse en la secuencia de un chat largo.
NotebookLM, usado directamente, no pertenece al bloque de fallas que aparecen en Gemini cuando el contexto crece y se mezclan conversaciones. Su valor está en ordenar materiales, mantener una línea de investigación y trabajar con fuentes definidas, hasta convertirse en la pieza más consistente del ecosistema de IA de Google para este tipo de flujo.

El quiebre aparece dentro de Gemini
La falla aparece cuando esa lógica se lleva dentro de Gemini. La integración reciente permite crear cuadernos desde Gemini, que también aparecen en NotebookLM, y conserva un tratamiento similar para archivos y enlaces como fuentes más estables; lo nuevo es que esos cuadernos operan como una carpeta de trabajo donde los chats también pasan a formar parte del contexto.
En teoría, la idea es potente porque acerca Gemini a una dinámica de proyecto, similar a una carpeta de trabajo con conversaciones, materiales y reglas persistentes. En la práctica, los chats dentro del cuaderno actúan como fuentes vivas que cambian a medida que el usuario avanza por temas separados, y esa flexibilidad empieza a volverse problemática cuando se acumulan varias conversaciones.
Después de algunos chats, Gemini comienza a mezclar contenidos entre hilos, responder desde contextos equivocados o contaminar un asunto con información que venía de otra conversación del mismo cuaderno. Ahí el problema no está en NotebookLM como aplicación, sino en la forma en que Gemini administra esas fuentes vivas dentro de un entorno que debería mantener separados los proyectos, temas y reglas de respuesta.
La consecuencia práctica es que el usuario termina volviendo a NotebookLM para trabajar en serio. El entorno propio de NotebookLM mantiene mejor el orden de las fuentes, mientras Gemini convierte la integración en una capa más caótica cuando intenta combinar archivos, enlaces, chats vivos e instrucciones dentro del mismo flujo.
La diferencia operativa entre ambos entornos
La diferencia operativa queda más clara así:
- NotebookLM directo: mantiene el eje del cuaderno, trabaja bien con fuentes definidas y genera informes útiles a partir del material recopilado.
- Deep Research en NotebookLM: busca fuentes, construye un informe propio y lo deja integrado al espacio de trabajo.
- Cuadernos creados desde Gemini: replican el espacio en NotebookLM, pero suman chats como fuentes vivas dentro de una carpeta de trabajo.
- Gemini con varios chats vivos: comienza a mezclar temas, perder separación entre conversaciones y responder desde contextos que no corresponden.
El problema se agrava porque las instrucciones personalizadas tampoco logran sostener el comportamiento del asistente cuando el cuaderno acumula varios chats, lo que debilita la idea de usar Gemini como un espacio de trabajo estable para proyectos largos.
El soporte de Gemini y otros reportes públicos ya recogen problemas similares de mezcla de contexto y pérdida de hilo en cuadernos o conversaciones extensas.

Deep Think: la beta premium que se cancela dentro de cuadernos
Deep Think aparece como una de las promesas más atractivas de Google AI Ultra, aunque sigue en etapa beta. Su valor está en ofrecer razonamiento más profundo dentro del ecosistema, con una expectativa razonable para un usuario de pago: no resolver cualquier tarea sin errores, sino entregar una experiencia más predecible que la de una función experimental suelta.
En estos cerca de 10 días de uso, la irregularidad no aparece solo cuando se trabaja con cuadernos, archivos o materiales extensos. Deep Think también puede fallar de forma estrepitosa en chats comunes, donde la exigencia mínima es completar la tarea, pedir una reformulación o explicar con claridad por qué no puede continuar.
La falla observable no es una respuesta de menor calidad, sino una cancelación del servicio. El sistema puede cortar la ejecución con mensajes genéricos como “se ha cancelado”, dejando la tarea sin resultado y sin información suficiente para saber si hubo un límite de cómputo, una restricción temporal, una incompatibilidad de contexto o una interrupción interna del propio servicio.
Ese síntoma permite una lectura técnica posible: el sistema parece superar una ventana operativa, agotar una asignación de recursos o abortar el proceso antes de entregar una salida. Lo único verificable para el usuario, sin embargo, es más simple y más grave: la función premium se cancela justo cuando intenta usarla en tareas donde debería justificar su existencia.

La beta de Deep Think no basta como explicación
Deep Think puede tener límites razonables por estar en beta, y esa condición ayuda a entender que no funcione con la misma estabilidad que una capacidad madura. Lo difícil de aceptar en Google AI Ultra es la forma en que se entrega: una función usada como argumento de valor del plan superior no debería fallar sin una explicación útil ni dejar al usuario sin ruta para continuar.
Una herramienta de razonamiento profundo necesita claridad operacional. Si el sistema no puede procesar una solicitud, debería indicar mejor qué ocurrió, qué tipo de carga no soportó y qué alternativa tiene el usuario, especialmente cuando la falla no aparece solo en cuadernos complejos, sino también en conversaciones normales.
Cuando esa información no existe, Deep Think deja de sentirse como una ventaja premium y pasa a operar como una promesa intermitente. El usuario termina probando si la función responde, rodeándola cuando falla y evitando integrarla como parte estable de un flujo profesional.

Nota: Se probó Deep Think en chats regulares y funcionó muy bien en la mayoría de los casos. El problema apareció dentro de los chats anidados a un cuaderno, donde no hubo forma de completar la ejecución y el sistema arrojó de manera reiterada el mensaje “Has cancelado esta respuesta”. La prueba se repitió con IP local en Chile y también mediante VPN en Estados Unidos, sin que el cambio de ubicación resolviera el fallo.
¿Qué significa esta falla en el uso real de Deep Think?
El problema de Deep Think no se mide solo por su disponibilidad, sino por el momento en que falla: aparece justo cuando el usuario intenta resolver una tarea compleja, ordenar razonamiento o validar una decisión de trabajo dentro de Google AI Ultra. En ese contexto, la lectura práctica no es que la función sea inútil, sino que todavía no ofrece la estabilidad necesaria para convertirse en una herramienta confiable dentro de un flujo profesional.
- La promesa es razonamiento avanzado: Deep Think debería justificar parte del salto hacia Google AI Ultra, aunque siga en beta.
- La falla se concentra en cuadernos: en chats regulares funcionó bien en la mayoría de los casos, pero dentro de chats anidados a un cuaderno, se canceló de manera reiterada.
- La cancelación es el síntoma central: el problema no es recibir una respuesta débil, sino que el proceso se corte sin entregar resultado.
- La explicación es insuficiente: mensajes como “se ha cancelado” no permiten saber qué límite se activó ni cómo ajustar el encargo.
- El usuario termina rodeando la función: en vez de convertir Deep Think en una herramienta central, debe decidir cuándo evitarla para no perder tiempo.
Guías y reportes técnicos sobre Gemini 3.1 Pro ya mencionan problemas similares de latencia, timeout o fallas de ejecución en tareas complejas.
La antesala de Google I/O no prueba la causa
Google I/O 2026 se realizará el 19 y 20 de mayo, con anuncios vinculados a IA, Gemini, Android y otros productos de la compañía. Ese contexto vuelve más sensible cualquier variación de rendimiento percibida por usuarios de pago.
Aun así, la cercanía con I/O no permite afirmar que Google esté ajustando modelos, redistribuyendo recursos o ejecutando cambios que expliquen directamente estas fallas. Esa hipótesis puede parecer razonable, pero no debe presentarse como hecho sin evidencia pública.
Lo verificable es más simple y más relevante para el usuario. Cuando un servicio premium cambia de comportamiento sin explicación clara, quien paga queda sin herramientas para distinguir entre despliegue gradual, límite técnico, saturación o degradación del modelo.

La paradoja: Gemini recordó fallas reales cuando se le preguntó en qué fallaba
Cuando se le pidió a Gemini ordenar sus propias fallas dentro de Google AI Ultra, la herramienta recuperó varios problemas que ya habían aparecido durante el uso diario. No se trató de una confesión técnica ni de una prueba automática contra el servicio, sino de un ejercicio útil para listar síntomas que el usuario ya venía observando en redacción, contexto, razonamiento y organización de herramientas.
Ese punto es relevante porque Gemini no partió desde cero ni respondió con una defensa genérica del producto. Al contrario, reconoció problemas vinculados con pérdida de instrucciones, cancelaciones de Deep Think, degradación en informes largos de Deep Research y confusión entre piezas distintas del ecosistema, aunque algunas explicaciones técnicas quedaron formuladas con más seguridad de la que permitía la evidencia disponible.
Ante cancelaciones de Deep Think, por ejemplo, Gemini habló de infraestructura sobrepasada, timeouts o asignación de recursos. Esa lectura puede servir como hipótesis para interpretar el síntoma.
También apareció una mezcla entre capas distintas del ecosistema. NotebookLM, Deep Research en Gemini y los cuadernos sincronizados dentro de Gemini fueron tratados inicialmente como partes de un mismo problema, aunque la experiencia directa permite separar mejor el diagnóstico: NotebookLM funciona con solidez en su entorno propio, mientras el quiebre aparece cuando Gemini intenta administrar cuadernos, chats vivos y reglas de respuesta dentro de una misma carpeta de trabajo.
Síntomas reales, hipótesis técnicas y verificación humana
El valor de esa conversación no está en tomar cada explicación de Gemini como diagnóstico definitivo, sino en mostrar que los síntomas eran lo suficientemente repetidos como para ser enumerados por la propia herramienta cuando se le preguntó por sus fallas. Aun así, el usuario debe separar qué fue observado directamente, qué corresponde a una hipótesis técnica y qué puede sostenerse como crítica publicable.
- Pérdida de instrucciones: Gemini recordó fallas asociadas a reglas que se entendían en un tramo y se abandonaban después.
- Cancelaciones de Deep Think: el síntoma central fue la interrupción del servicio, no una respuesta de menor calidad.
- Degradación de Deep Research: los informes podían partir bien y perder control hacia sus tramos finales.
- Confusión entre herramientas: NotebookLM, Gemini y los cuadernos sincronizados requerían una separación más precisa.
- Necesidad de verificación humana: incluso cuando enumera fallas reales, Gemini puede mezclar observación e hipótesis con demasiada confianza.
La paradoja refuerza el punto central: Google AI Ultra puede ordenar problemas reales, pero su seguridad formal no reemplaza la verificación humana.
¿Vale la pena subir desde Google AI Pro a Google AI Ultra para trabajar texto en Gemini y Workspace? No todavía
Con cerca de 10 días de uso, no recomendaría subir desde Google AI Pro a Google AI Ultra si el objetivo principal es trabajar con texto, investigación y contexto dentro de Gemini. El análisis no evalúa todo el paquete Ultra, sino el flujo más probable para muchos usuarios: chat, Deep Research, Deep Think, cuadernos integrados con NotebookLM y NotebookLM usado directamente. Bajo ese alcance, el precio todavía no se justifica frente a la estabilidad observada.
Es un hecho, ningún LLM está libre de errores y cualquier trabajo técnico exige revisión, pero un plan de mayor precio debería reducir incertidumbre, no convertir cada función diferencial en una apuesta.
Siente razones para no recomendar Google AI Ultra
- El precio instala una vara más alta: por 249,99 USD mensuales, o incluso por una tarifa promocional durante los primeros meses, Google AI Ultra no puede evaluarse con la misma tolerancia que un plan intermedio.
- La estabilidad no acompaña la promesa: Gemini puede alternar respuestas sólidas con pérdidas de instrucción, cambios de criterio y formatos que se relajan dentro de tareas similares.
- Deep Research no sostiene siempre los informes largos: la función puede partir con estructura, fuentes y buen orden inicial, pero degradarse hacia el cierre hasta dejar material que debe rehacerse.
- Deep Think falla dentro de cuadernos: aunque funcionó en la mayoría de las ocasiones en chats regulares, una función presentada como valor premium no debería cancelarse sin explicación útil en chats anidados a cuadernos.
- NotebookLM demuestra que Google sí puede hacerlo bien: la herramienta funciona mejor cuando se usa directamente, pero esa solidez no se replica cuando Gemini intenta absorber cuadernos, chats vivos e instrucciones dentro de un mismo flujo.
- La carga de auditoría sigue siendo demasiado alta: el usuario debe revisar datos, jerarquía, formato, contexto, hipótesis técnicas y continuidad con una frecuencia impropia de un servicio vendido como nivel superior.
- La integración con Workspace queda por debajo de la promesa: Gemini debería tener ventaja natural dentro del ecosistema de Google, pero todavía tropieza con acciones de creación, edición o guardado que el usuario debe verificar manualmente.
Google AI Ultra entrega algunas funciones realmente potentes, pero todavía no ofrece una experiencia suficientemente estable, clara y confiable para recomendarlo como herramienta principal de trabajo.

