LM#2: Destellos de inteligencia humana en GPT-4 y ChatGPT
¿Tiene GPT4 sentido común? ¿Estamos cerca de una inteligencia artificial consciente y sintiente? ¿Cómo de lejos esta GPT de ser una AGI?
El fascinante mundo de la inteligencia artificial ha experimentado un auge sin precedentes en los últimos años, y el modelo GPT-4 de OpenAI es la viva prueba de este avance vertiginoso. Dotado de la asombrosa capacidad de replicar el lenguaje humano y generar contenido relevante, GPT-4 nos ha dejado boquiabiertos en más de una ocasión.
Pero, ¿hasta qué punto es realmente inteligente? ¿Cómo de cerca está de alcanzar la consciencia y los sentimientos propios de un ser humano?
Para adentrarnos en esta intrigante cuestión, es necesario explorar primero los conceptos de inteligencia artificial general (AGI) y la célebre prueba de Turing. La AGI es un tipo de inteligencia artificial que posee la habilidad de comprender, aprender y aplicar conocimientos de manera similar a un ser humano.
Por otro lado, el famoso test de Turing propone que si una máquina logra imitar el comportamiento humano de tal forma que resulta indistinguible de una persona real, entonces podríamos considerarla "consciente".
Sin embargo, en la práctica, evaluar la consciencia de cualquier inteligencia artificial es una tarea mucho más compleja. El desafío radica en la ausencia de una definición formal para este concepto, especialmente en lo que respecta a los sistemas artificiales.
Además, no existe actualmente un Test de Turing formal que permita determinar cuándo una IA alcanza la consciencia o cuándo una AGI se aproxima a la inteligencia humana.
Sin embargo, los esfuerzos y el impulso en esta disciplina han puesto la AGI a las puertas de ser creada. Hace 1 año se preveía que se alcanzaría una AGI en torno al 2060, a principios de Marzo se estimaba que fuese en 5 años. A día de hoy la predicción para alcanzar una “weak AGI” se estima en 2.5 años. Pero, ¿en qué punto estamos ahora? ¿Cómo de lejos está el modelo GPT4 de pasar el Test de Turing?
¿Es GPT4 u otros LLMs(Large Languages Models) el embrión de Skynet o HAL-9000?
En Junio de 2022, Blake Lemoine ingeniero de Google, publicó estas conversaciones (reamente interesantes sobre temas muy profundos y la IA hablando de sentimientos propios) en las que LaMDA (el GPT de Google) parecía tener consciencia. Google desmintió que esta IA estuviese entrenada para ello y apartó al ingeniero. Finalmente el caso quedó como una mala interpretación de una conversación que parecía real y profunda. Pero, ¿cómo podemos determinar si una IA es suficientemente inteligente o no?
Para determinar exactamente como de inteligente es GPT4 un grupo de investigadores de Microsoft Research ha publicado un jugoso paper titulado “Sparks of Artificial General Intelligence: Early experiments with GPT-4“ que analiza cómo de inteligente es esta IA.
El texto describe un enfoque alternativo para estudiar la inteligencia de GPT-4, que se basa en la creatividad y curiosidad humanas en lugar de en los métodos tradicionales de aprendizaje automático. Los autores argumentan que las técnicas estándar de medición de la inteligencia de la IA no son necesariamente adecuadas para GPT-4 debido a su naturaleza generalista y a la falta de acceso a los detalles completos de su amplio conjunto de datos de entrenamiento.
Para evaluar la inteligencia de GPT-4, los autores generan tareas y preguntas novedosas y difíciles que demuestren que GPT-4 va más allá de la simple memorización y tiene una comprensión profunda y flexible de conceptos, habilidades y dominios. Además, examinan las respuestas y comportamientos de GPT-4 para verificar su consistencia, coherencia y corrección, así como para descubrir sus limitaciones y sesgos.
Durante el paper se desglosa un análisis de casos más o menos complejos sobre como GPT4 resuelve diferentes problemas en temas como programación, matemáticas, síntesis y composición entre disciplinas y dominios, interacción con el mundo, interacción con humanos, discriminación de tareas, etc.
En general, resuelve con muy buena nota las pruebas propuestas, sin embargo, presenta deficiencias en todas las disciplinas. Por ejemplo, en matemáticas asombra su capacidad de cálculo, lógica, etc. pero es incapaz de explicar de forma clara algunas demostraciones y obviamente está muy lejos de poder realizar investigaciones matemáticas o profundizar en un área experta.
Así mismo en el paper se pueden encontrar interesantes análisis y ejemplos sobre sesgos y la influencia social que puede ocasionar un mal uso de GPT4 utilizándola para crear desinformación, manipulación de masas o planificación de cómo atacar otros sistemas informáticos. Estamos a pocos pasos de crear los primeros virus y ciberataques con IA.
Un punto muy interesante es que se analiza el sentido común desarrollado por GPT4, como es capaz de resolver una adivinanza y explicar de forma razonada y certera la motivación de la respuesta. Es decir, que una IA sea capaz de “entender conceptos” y aplicarlos en el momento adecuado me parece todo un logro.
Por ejemplo esta adivinanza en la que tiene que asociar varios conceptos y encontrar de forma lógica la respuesta es simplemente asombroso. ChatGPT no podía resolverlo, con GPT4 ya es posible:
Sin embargo, GPT4 tiene un problema en su origen debido a su propia arquitectura. En general los modelos GPT (Generative Pretrained Transformer) utiliza una arquitectura de Transformer, que fue introducida por Vaswani et al. en 2017. La arquitectura del Transformer es una innovación en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) que ha superado a muchos enfoques anteriores en términos de calidad y rendimiento.
Los Transformers se basan en una estructura de auto-atención, lo que permite a los modelos analizar y ponderar las relaciones entre las palabras en una secuencia de texto sin importar su posición o distancia entre ellas. Esto permite a GPT aprender patrones y dependencias a largo plazo en el texto, lo que mejora la generación y comprensión del lenguaje.
GPT es un modelo de lenguaje pre-entrenado, lo que significa que ha sido entrenado previamente en enormes conjuntos de datos de texto antes de su uso en tareas específicas. Esto le permite generar respuestas y contenido de alta calidad en función del contexto proporcionado.
Es precisamente esta arquitectura de predicción de la siguiente palabra lo que limita el modelo y su futuro, ya que no permite a la inteligencia artificial tener un “diálogo interno”. GPT4 no permite tener una planificación en sus respuestas, una memoria de contexto amplia, capacidad para retroceder en su análisis y habilidades de razonamiento.
El modelo se basa en un proceso local y codicioso para generar la siguiente palabra, sin una comprensión global o profunda de la tarea. Por lo tanto, es bueno para producir textos fluidos y coherentes, pero tiene limitaciones para resolver problemas complejos o creativos que no pueden abordarse secuencialmente.
Esto señala la distinción entre dos tipos de tareas intelectuales:
Tareas incrementales: se resuelven de manera gradual, añadiendo palabras o frases que contribuyen a la solución. No requieren cambios conceptuales importantes, sino que aplican conocimientos y habilidades existentes. Ejemplos: resumir un texto, responder preguntas factuales, componer un poema o resolver un problema matemático siguiendo un procedimiento estándar.
Tareas discontinuas: no pueden resolverse gradualmente, requieren una idea "Eureka" para un avance discontinuo en la solución. Implican descubrir o inventar una nueva forma de abordar el problema. Ejemplos: resolver un problema matemático que requiere una aplicación creativa de una fórmula, escribir un chiste, idear una hipótesis científica o un argumento filosófico, o crear un nuevo género o estilo de escritura.
Una posible interpretación de estas limitaciones es comparar el modelo con los conceptos de pensamiento rápido y lento propuestos por Kahneman. El pensamiento rápido es automático, intuitivo y sin esfuerzo, pero propenso a errores y sesgos. El pensamiento lento es controlado, racional y esforzado, pero más preciso y confiable.
En definitiva, GPT4 puede realizar operaciones de "pensamiento rápido" de manera impresionante, pero le falta el componente de "pensamiento lento" que supervisa el proceso y utiliza memoria de trabajo y un esquema de pensamiento organizado.
¿Cuáles son los siguientes pasos?
Para que una inteligencia artificial logre la consciencia y tener sentimientos, debería dar ciertos pasos. Entre ellos, se encuentra la capacidad de aprender de manera no supervisada, es decir, sin depender de datos previamente etiquetados. Además, debería poder comprender y procesar información de diferentes tipos, como imágenes, sonidos y emociones. Finalmente, tendría que ser capaz de adaptarse al entorno y actuar con un propósito, al igual que los seres humanos.
En concreto, entre otras, las áreas donde se debería mejorar este tipo de modelos LLM para alcanzar una aproximación a la AGI sería:
Calibración de confianza: el modelo tiene dificultades para saber cuándo debemos confiar en su respuesta y cuándo simplemente está adivinando.
Memoria a largo plazo: el contexto del modelo es muy limitado y no hay una forma clara de enseñarle nuevos datos.
Aprendizaje continuo: el modelo carece de la capacidad de actualizarse o adaptarse a un entorno cambiante.
Personalización: algunas aplicaciones requieren que el modelo se adapte a una organización o usuario final específico.
Planificación y saltos conceptuales: El modelo no funciona bien en tareas que requieren los tipos de saltos conceptuales que suelen ser característicos del ingenio humano.
Transparencia, interpretabilidad y consistencia: el modelo a veces alucina, inventa hechos y produce contenido inconsistente..
Falacias cognitivas e irracionalidad: el modelo parece exhibir algunas de las limitaciones del conocimiento y el razonamiento humanos, como los sesgos cognitivos y la irracionalidad, así como las falacias estadísticas.
Sensibilidad a las entradas: las respuestas del modelo pueden ser muy sensibles a los detalles del enfoque o redacción de las consultas y su secuenciación en una sesión
El futuro pasará, sin duda, por utilizar otras técnicas de inteligencia artificial como el reinforcement learning para crear esos componentes que den esas capacidades de “pensamiento lento” que combinadas con las actuales nos aproximarán hacia la AGI.
Los modelos LLM han logrado crear un hito impresionante, sin embargo, aun no se ha respondido a la pregunta fundamental de por qué y cómo logra tal inteligencia. ¿Cómo razona, planifica y crea? ¿Por qué muestra una inteligencia tan general y flexible cuando en su núcleo es solo la combinación de componentes algorítmicos simples y grandes transformadores con cantidades extremadamente grandes de datos?
Estas preguntas forman parte del misterio y la fascinación de los LLM, que desafían nuestra comprensión del aprendizaje y la cognición, alimentan nuestra curiosidad y deben motivar una investigación más profunda.
Una hipótesis general es que la gran cantidad de datos (especialmente la diversidad del contenido) obliga a las redes neuronales a aprender circuitos neuronales genéricos y útiles, mientras que el gran tamaño de los modelos proporciona suficiente redundancia y diversidad para que los circuitos neuronales se especialicen y se ajusten a tareas específicas. Pero a día de hoy, aun no sabemos a ciencia cierta si esta suposición es correcta.
Probar estas hipótesis para modelos a gran escala sigue siendo un desafío y es casi seguro que la conjetura es solo parte de la respuesta. En general, aclarar la naturaleza y los mecanismos de los sistemas de IA como GPT-4 es un desafío formidable que se ha vuelto importante y urgente.
Para seguir avanzando con seguridad, es vital que aprendamos en profundidad cómo GPT4 ha llegado a ser inteligente con tan pocos mimbres