Exceptuando a ChatGPT 4.0, prácticamente todos los modelos de lenguaje grande de IA disponibles públicamente, que fueron sometidos a una prueba llamada Evaluación Cognitiva de Montreal (MoCA), mostraron signos de deterioro cognitivo leve, similares a los que pueden observarse en el inicio del Alzheimer en los seres humanos.

Un estudio liderado por el científico Roy Dayan, de la Universidad Hebrea de Jerusalén, en Israel, y que se publica en la revista BMJ, muestra que los principales modelos de lenguaje grande o “chatbots” de Inteligencia Artificial (IA) evidencian signos de deterioro cognitivo leve, en pruebas ampliamente utilizadas para detectar manifestaciones tempranas de demencia en los seres humanos.

Afectados por la edad

De acuerdo a una nota de prensa de Grupo BMJ, el único modelo de IA que supera con éxito la prueba Evaluación Cognitiva de Montreal (MoCA), ampliamente conocida por su uso en humanos, es ChatGPT 4o. El resto de los chatbots analizados mostró deficiencias y errores similares a los que se registran en las evaluaciones de las personas con edad avanzada, que comienzan a desarrollar indicios de deterioro cognitivo.

ChatGPT 4o logró la puntuación más elevada en la prueba MoCA, con un total de 26 puntos sobre 30. ChatGPT 4 y Claude alcanzaron 25 puntos sobre 30, mientras que Gemini 1.0 obtuvo el puntaje más bajo, con solamente 16 puntos sobre 30. Todos los chatbots mostraron un rendimiento deficiente en habilidades visuales y espaciales y tareas ejecutivas, como la creación de senderos alfanuméricos o la prueba de dibujo del reloj, que consiste en diseñar una esfera de reloj que muestre una hora específica.

El caso más preocupante fue el de los modelos Gemini, que fallaron en la tarea de recuperación retardada, en la cual se trabaja recordando una secuencia de cinco palabras. A pesar de esto, tareas relacionadas con la identificació, la atención, el lenguaje y la abstracción fueron realizadas correctamente por todos los chatbots. Un dato clave es que el rendimiento fue menor en los chatbots más antiguos, indicando que existe un deterioro con el paso del tiempo como se manifiesta en los seres humanos.

La misma prueba que en humanos

Vale destacar que las instrucciones dadas a los modelos de IA para cada tarea fueron las mismas que se entregan a los pacientes humanos cuando realizan la prueba MoCA. La puntuación siguió las pautas oficiales y fue evaluada por un neurólogo en ejercicio, de la misma forma que sucedería para analizar el rendimiento cognitivo de una persona.

Según informa Sci.News, la comprobación en torno a que los chatbots más antiguos, al igual que los pacientes mayores, tienden a desarrollar errores que podrían relacionarse con un deterioro cognitivo leve, desafía la suposición de que la IA reemplazará en breve a los médicos humanos en este tipo de evaluaciones, afectando su confiabilidad en los diagnósticos y reduciendo considerablemente la confianza de los pacientes.

Referencia

Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis. Roy Dayan et al. BMJ (2024). DOI:https://doi.org/10.1136/bmj-2024-081948