Un estudio publicado en JNeurosci explica por qué algunas personas repiten malas decisiones

Tu cerebro tiene un bug que causa malas decisiones porque el sistema de actualización es lento y sigue señales obsoletas

Una investigación de la Universidad de Bolonia descubrió por qué algunas personas quedan atrapadas repitiendo malas decisiones. El estudio concluye que el cerebro falla al actualizarse y no reconoce que una elección antigua ahora trae consecuencias negativas.

En términos técnicos, el hallazgo no se refiere a errores de juicio complejos, sino a la persistencia en conductas obsoletas. Es decir, seguir reaccionando automáticamente a una señal (aviso) aunque la acción ya no entregue ningún beneficio real (recompensa).

Esto sucede porque ciertas personas se fían demasiado de las señales que ven o escuchan a su alrededor. Esa dependencia les impide corregir el rumbo y cambiar su comportamiento cuando esas pistas dejan de ser útiles.

El equipo validó esta hipótesis mediante modelos computacionales de Aprendizaje por Refuerzo, simulando matemáticamente cómo dos procesos cognitivos paralelos compiten por el control de la decisión.

Podemos detallar este fallo al compararlo con una IA obstinada en cometer la misma alucinación, a pesar de que se lo digan:

La alucinación: Una IA insiste en repetir un dato falso una y otra vez.
La corrección inútil: Aunque el usuario le diga que está equivocada, el sistema no cambia su respuesta.
El bloqueo: Al cerebro le pasa lo mismo; ignora la evidencia del error porque la señal antigua «pesa» más que la realidad del momento.

La lucha entre dos sistemas del cerebro por malas decisiones

El cerebro humano procesa la información y decide cómo actuar mediante la colaboración constante de dos sistemas de aprendizaje distintos:

Aprendizaje pavloviano: Vincula estímulos externos del entorno, como imágenes o sonidos, con la expectativa automática de una recompensa.
Aprendizaje instrumental: Evalúa las consecuencias directas y el resultado práctico que se obtiene tras realizar una acción específica.

La investigación expone que esta convivencia neurobiológica no siempre es armónica y puede generar conflictos operativos. En situaciones de incertidumbre, las señales visuales o auditivas del entorno pueden anular el juicio sobre las consecuencias reales de una acción.

En términos simples, el estudio muestra que estos dos sistemas no siempre trabajan bien juntos y pueden chocar entre sí cuando intentamos decidir algo. Esta «pelea» interna confunde al cerebro y provoca errores por dos razones principales:

Señales que mandan: Cuando no estamos seguros de qué hacer, las luces o sonidos del entorno toman el control y dirigen la elección.
Ignorar la realidad: Estas pistas son tan fuertes que nos hacen olvidar las consecuencias reales de nuestras acciones, empujándonos a elegir mal.

Podemos visualizar este fallo mental como una secuencia de errores entre un conductor y su GPS:

La mala decisión: El conductor ignora el camino bloqueado y avanza igual, confiando ciegamente en la pantalla en lugar de lo que ven sus ojos.
La señal antigua: El GPS insiste en marcar una ruta vieja que el conductor ya aprendió de memoria.
La realidad actual: Al mirar por el parabrisas, es evidente que el puente está caído y no se puede pasar.

La dificultad para aprender de los nuevos errores

Para entender qué ocurría realmente en la mente de los participantes, el equipo combinó dos herramientas de precisión. Primero utilizaron la pupilometría, midiendo la dilatación de la pupila para cuantificar objetivamente cuánto «valor» o interés asignaba el ojo a las señales visuales.

Luego, cruzaron esos datos biológicos con un modelado computacional basado en algoritmos de aprendizaje por refuerzo (usados, por ejemplo, en las IA de DeepMind como AlphaGo o AlphaZero). Este análisis matemático no simuló personas ficticias, sino que decodificó el proceso de toma de decisiones de los voluntarios reales, permitiendo identificar a un grupo específico denominado «rastreadores de señales».

El algoritmo reveló que estos sujetos operaban con una dificultad significativa: eran incapaces de actualizar el valor asignado a un estímulo cuando la recompensa asociada dejaba de exist

Un ‘bug’ de actualización en el código mental

Este análisis no funcionó como una «caja negra», sino que diseccionó el proceso mediante un marco de Aprendizaje por Refuerzo (Reinforcement Learning). Es la misma arquitectura lógica que utilizan inteligencias artificiales como AlphaZero para aprender estrategias complejas mediante prueba y error.

El modelo permitió ver el engranaje exacto del fallo. El análisis descartó que el problema fuera el «peso» o la preferencia inicial que el usuario le da a la señal.

El error real se encuentra en la tasa de aprendizaje: el sistema pavloviano tiene un bug de velocidad. Se queda «congelado» calculando un valor antiguo y no refresca el dato lo suficientemente rápido ante la nueva realidad, contaminando así la decisión final.

Los hallazgos sugieren que esta resistencia a la actualización de valores es un factor clave en trastornos de conducta. La incapacidad para revisar lo aprendido vincula estos mecanismos con la ansiedad y los comportamientos compulsivos.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....

Publicado por

Ivan

Tags: Aprendizaje Por refuerzoIANeurociencia

1 mes