Tu cerebro tiene un bug que causa malas decisiones porque el sistema de actualización es lento y sigue señales obsoletas

Una investigación de la Universidad de Bolonia descubrió por qué algunas personas quedan atrapadas repitiendo malas decisiones. El estudio concluye que el cerebro falla al actualizarse y no reconoce que una elección antigua ahora trae consecuencias negativas.
En términos técnicos, el hallazgo no se refiere a errores de juicio complejos, sino a la persistencia en conductas obsoletas. Es decir, seguir reaccionando automáticamente a una señal (aviso) aunque la acción ya no entregue ningún beneficio real (recompensa).
Esto sucede porque ciertas personas se fían demasiado de las señales que ven o escuchan a su alrededor. Esa dependencia les impide corregir el rumbo y cambiar su comportamiento cuando esas pistas dejan de ser útiles.
El equipo validó esta hipótesis mediante modelos computacionales de Aprendizaje por Refuerzo, simulando matemáticamente cómo dos procesos cognitivos paralelos compiten por el control de la decisión.
Podemos detallar este fallo al compararlo con una IA obstinada en cometer la misma alucinación, a pesar de que se lo digan:
El cerebro humano procesa la información y decide cómo actuar mediante la colaboración constante de dos sistemas de aprendizaje distintos:
La investigación expone que esta convivencia neurobiológica no siempre es armónica y puede generar conflictos operativos. En situaciones de incertidumbre, las señales visuales o auditivas del entorno pueden anular el juicio sobre las consecuencias reales de una acción.
En términos simples, el estudio muestra que estos dos sistemas no siempre trabajan bien juntos y pueden chocar entre sí cuando intentamos decidir algo. Esta «pelea» interna confunde al cerebro y provoca errores por dos razones principales:
Podemos visualizar este fallo mental como una secuencia de errores entre un conductor y su GPS:
Para entender qué ocurría realmente en la mente de los participantes, el equipo combinó dos herramientas de precisión. Primero utilizaron la pupilometría, midiendo la dilatación de la pupila para cuantificar objetivamente cuánto «valor» o interés asignaba el ojo a las señales visuales.
Luego, cruzaron esos datos biológicos con un modelado computacional basado en algoritmos de aprendizaje por refuerzo (usados, por ejemplo, en las IA de DeepMind como AlphaGo o AlphaZero). Este análisis matemático no simuló personas ficticias, sino que decodificó el proceso de toma de decisiones de los voluntarios reales, permitiendo identificar a un grupo específico denominado «rastreadores de señales».
El algoritmo reveló que estos sujetos operaban con una dificultad significativa: eran incapaces de actualizar el valor asignado a un estímulo cuando la recompensa asociada dejaba de exist
Este análisis no funcionó como una «caja negra», sino que diseccionó el proceso mediante un marco de Aprendizaje por Refuerzo (Reinforcement Learning). Es la misma arquitectura lógica que utilizan inteligencias artificiales como AlphaZero para aprender estrategias complejas mediante prueba y error.
El modelo permitió ver el engranaje exacto del fallo. El análisis descartó que el problema fuera el «peso» o la preferencia inicial que el usuario le da a la señal.
El error real se encuentra en la tasa de aprendizaje: el sistema pavloviano tiene un bug de velocidad. Se queda «congelado» calculando un valor antiguo y no refresca el dato lo suficientemente rápido ante la nueva realidad, contaminando así la decisión final.
Los hallazgos sugieren que esta resistencia a la actualización de valores es un factor clave en trastornos de conducta. La incapacidad para revisar lo aprendido vincula estos mecanismos con la ansiedad y los comportamientos compulsivos.