IA generativa no tiene una comprensión coherente del mundo

Un grupo de investigadores descubrió que un tipo popular de modelo de IA generativa puede proporcionar indicaciones paso a paso para conducir en la ciudad de Nueva York con una precisión casi perfecta, sin haber formado un mapa interno preciso de la ciudad. Sin embargo, a pesar de la asombrosa capacidad del modelo para navegar con eficacia, cuando los científicos cerraron algunas calles y añadieron desvíos, su rendimiento se desplomó.

Al profundizar más, los investigadores descubrieron que los mapas de Nueva York generados implícitamente por el modelo tenían muchas calles inexistentes que se curvaban entre la cuadrícula y conectaban intersecciones lejanas.

Este hallazgo podría tener serias implicaciones para los modelos de IA generativa implementados en el mundo real, ya que un modelo que parece funcionar bien en un contexto, podría dejar de funcionar si la tarea o el entorno cambian levemente.

“Una esperanza es que, debido a que los LLM pueden lograr todas estas cosas asombrosas en el lenguaje, tal vez podamos usar estas mismas herramientas también en otras partes de la ciencia. Pero la cuestión de si los LLM están aprendiendo modelos coherentes del mundo es muy importante si queremos usar estas técnicas para hacer nuevos descubrimientos”, afirmó el autor principal Ashesh Rambachan, profesor adjunto de economía e investigador principal del Laboratorio de Sistemas de Información y Decisión del MIT.

Un tipo de modelo de IA generativa específico

Los investigadores se centraron en un tipo de modelo de IA generativa conocido como transformador, que constituye la columna vertebral de los modelos de lenguaje como GPT-4. Los transformadores se entrenan con una enorme cantidad de datos basados en el lenguaje para predecir el siguiente token en una secuencia, como la siguiente palabra en una oración.

Pero si los científicos quieren determinar si un LLM ha formado un modelo preciso del mundo, medir la precisión de sus predicciones no es suficiente. Por ejemplo, descubrieron que un transformador puede predecir movimientos válidos en un juego de Conecta 4 casi siempre sin entender ninguna de las reglas.

Por esta razón, el equipo desarrolló dos nuevas métricas para poner a prueba el modelo del mundo de un transformador. Los investigadores centraron sus evaluaciones en una clase de problemas denominados automatizaciones finitas deterministas (DFA).

Un DFA es un problema con una secuencia de estados, como intersecciones que uno debe atravesar para llegar a un destino, y una forma concreta de describir las reglas que uno debe seguir a lo largo del camino.

Eligieron dos problemas para formularlos como DFA: navegar por las calles de la ciudad de Nueva York y jugar al juego de mesa Othello.

Introducción de nuevas métricas

La primera métrica que desarrollaron, llamada distinción de secuencias, dice que un modelo ha formado un modelo coherente del mundo si ve dos estados diferentes, como dos tableros Othello diferentes, y reconoce en qué se diferencian. Las secuencias, es decir, listas ordenadas de puntos de datos, son lo que utilizan los transformadores para generar resultados.

La segunda métrica, llamada compresión de secuencia, dice que un transformador con un modelo mundial coherente debería saber que dos estados idénticos, como dos tableros Othello idénticos, tienen la misma secuencia de posibles pasos siguientes.

Los científicos utilizaron estas métricas para probar dos clases comunes de transformadores, uno que se entrena con datos generados a partir de secuencias producidas aleatoriamente y el otro con datos generados al seguir estrategias.

Modelos mundiales incoherentes

Sorprendentemente, los investigadores descubrieron que los transformadores que tomaban decisiones al azar formaban modelos del mundo más precisos, tal vez porque vieron una variedad más amplia de posibles próximos pasos durante el entrenamiento.

“En Othello, si ves a dos computadoras jugando al azar en lugar de jugadores de campeonato, en teoría verías el conjunto completo de movimientos posibles, incluso los malos movimientos que los jugadores de campeonato no harían”, explicó Keyon Vafa, autor principal del trabajo y posdoctorado en la Universidad de Harvard.

Si bien los transformadores generaron direcciones precisas y movimientos de Othello válidos en casi todos los casos, las dos métricas revelaron que solo uno generó un modelo mundial coherente para los movimientos de Othello, y ninguno tuvo un buen desempeño en la formación de modelos mundiales coherentes en el ejemplo de señalización.

Los investigadores demostraron las implicaciones de esto al añadir desvíos al mapa de la ciudad de Nueva York, lo que provocó que todos los modelos de navegación fallaran.

“Me sorprendió lo rápido que se deterioraba el rendimiento en cuanto añadimos un desvío. Si cerrábamos solo el 1 por ciento de las calles posibles, la precisión se desplomaba inmediatamente de casi el 100 % a solo el 67 %”, afirmó Vafa.

Continúa leyendo: Google filtró accidentalmente Jarvis AI, su agente de IA que “navega por la web por ti”

Usa la tecnología con inteligencia, únete a nuestras redes sociales hoy