Desde hace setenta años perseguimos la promesa de construir una máquina capaz de pensar como nosotros. Hoy, por primera vez, la meta parece más cerca que nunca, o al menos eso transmiten los titulares. Prácticamente cada semana OpenAI, Google y Anthropic se responden mutuamente presentando modelos cada vez más sofisticados, que baten récords en pruebas estandarizadas o resuelven exámenes médicos o jurídicos mejor que el 90% de los humanos.
El progreso es tan rápido que los científicos tuvieron que inventar evaluaciones nuevas porque la IA ya había “memorizado” las anteriores. En algunos benchmarks los modelos pasaron de acertar el 70% de las respuestas a superar el 90% en menos de dos años, acercándose al techo teórico de la prueba. Las investigaciones más recientes sugieren que el rendimiento en tareas complejas se duplica aproximadamente cada siete meses, y lo que a principios de año no podía resolver, para agosto ya es una tarea que no le representa ningún desafío.
A partir de estos avances, no sorprende que algunos referentes como Sam Altman o Elon Musk ya hablen de la Inteligencia Artificial General, o AGI, como un hito tecnológico que se encuentra a la vuelta de la esquina. A diferencia de la IA que usamos hoy, que es estrecha o específica, la AGI sería un sistema capaz de entender, aprender y aplicar su inteligencia a cualquier tarea intelectual que un ser humano pueda realizar, desde diagnosticar una enfermedad hasta aprender un oficio nuevo sin recibir entrenamiento previo, en lugar de estar limitada a una tarea determinada.
Sin embargo, y para complicar un poco más el escenario, AGI es posiblemente el término más ambiguo y disputado del sector tecnológico actual. No solo no existe un consenso absoluto sobre qué es la Inteligencia Artificial General, sino que el debate es tan profundo que ni siquiera los científicos se ponen de acuerdo en qué examen debería pasar una máquina para ganarse ese título. Así, la falta de un criterio único y homogeneizado permite que diferentes empresas y laboratorios proyecten visiones y cronogramas radicalmente distintos basados en lo que cada uno prioriza.
OpenAI, por ejemplo, adopta una definición mucho más pragmática y terrenal. Para ellos, la AGI no se mide por conciencia ni por comprensión del mundo, sino por su impacto económico. Si un sistema es capaz de superar a los humanos en la mayoría de las tareas valiosas para el mercado, automatizar empresas enteras, facturar millones de dólares o hacer el trabajo de miles de personas, entonces califica como general. Es más una cuestión de resultados que de inteligencia; no importa cómo piensa sino cuánto produce.
En el extremo opuesto está Google DeepMind. Para el laboratorio de IA del gigante de Mountain View, la AGI no es un interruptor que se enciende o se apaga, sino una escalera de capacidades, con niveles que van desde la AGI emergente, en la que estaríamos hoy, hasta la AGI sobrehumana, capaz de superar a toda la humanidad en cualquier tarea imaginable. Su visión está más ligada a la investigación y el razonamiento profundo, por lo que el éxito no es que la máquina trabaje por nosotros, sino que sea capaz de descubrir conocimientos científicos que nosotros todavía no alcanzamos.
Pero mientras los nombres más célebres de la industria compiten por ponerle fecha al gran hito, una tercera voz cuestiona directamente esta narrativa. Yann LeCun, pionero del aprendizaje profundo y quien fuera jefe científico de IA de Meta durante más de diez años, asegura que estamos confundiendo fluidez estadística con inteligencia real. Para él, los modelos actuales son “loros estocásticos” muy sofisticados, que repiten patrones sin comprender realmente lo que dicen. Pueden parecer brillantes, pero carecen de sentido común y de una comprensión básica del mundo físico, la misma que permite a un gato saber que, si empuja un vaso, este caerá de la mesa.
Desde esta perspectiva, la AGI no es una realidad que esté a punto de materializarse, porque los sistemas actuales no “viven” en el mundo, sino en un mar de textos estadísticos. Sin esa conexión con la realidad tangible, la promesa de una máquina que piense como nosotros seguirá siendo, precisamente, solo eso, una promesa.
Esta limitación la apoya François Chollet, un ingeniero de Google muy respetado y creador de un test de puzzles visuales que hoy es el estándar de oro para saber qué tan lejos estamos de la verdadera inteligencia general. Chollet sostiene que aprobar exámenes de abogacía o medicina no acredita que una máquina sea inteligente, sino que tiene una memoria estadística colosal. Para él, la verdadera inteligencia es la capacidad de aprender algo nuevo sobre la marcha, sin haberlo visto nunca en los datos de entrenamiento.
Su test consiste en puzzles de cuadrículas de colores que cualquier niño resuelve por pura intuición visual, pero que a los modelos más avanzados les resultan casi imposibles. Mientras los humanos alcanzamos una efectividad del 95% en estas pruebas de lógica abstracta, la mayoría de las IAs se encuentran por debajo del 20%, demostrando que, fuera de los libros y de internet, las máquinas siguen siendo bastante torpes ante lo novedoso. Para Chollet, hasta que una IA no pueda razonar ante un problema visual que jamás ha visto, estaremos ante un sistema que memoriza, pero que no comprende.
Sin embargo, justo cuando la incredulidad parece ganar terreno, una investigación de un equipo científico de la Universidad de California en San Diego (UCSD) pateó el tablero con una conclusión provocadora: la AGI no es una promesa futura, sino una realidad que ya estamos viviendo. Según los autores, si volvemos a la vara original establecida por Alan Turing hace más de siete décadas, modelos como GPT-4 ya cruzaron cómodamente ese umbral.
El “Test de Turing” es una prueba propuesta en 1950 en la que un evaluador humano chatea con dos interlocutores, una persona y una máquina, sin saber cuál es cuál. Si no logra distinguirlos, la máquina debe considerarse inteligente. Durante años, este desafío se consideró una frontera infranqueable, el Santo Grial, el examen final que separaba a un simple programa de computación de una verdadera mente artificial. Y fue precisamente esta evaluación la que los científicos de San Diego decidieron repetir utilizando la tecnología actual.
En el experimento, los participantes identificaron a la IA como un ser humano el 54% de las veces, superando por primera vez el histórico test de Turing y demostrando que las máquinas ya son capaces de engañar nuestro propio instinto. Pero ese resultado no fue un techo, sino un punto de partida. En versiones posteriores, como GPT-4.5, la proporción siguió creciendo hasta alcanzar el 73% en pruebas realizadas por la UCSD en 2025.
El estudio sugiere que el problema no es que a la tecnología le falte capacidad, sino que estamos constantemente corriendo la línea de llegada cada vez que un sistema alcanza una meta que creíamos imposible. Hace 30 años, ganar al ajedrez se consideraba el límite de la inteligencia, después lo fue reconocer rostros, luego manejar un auto o mantener una conversación fluida... Cada vez que una máquina logra hacer algo que antes creíamos "humano", dejamos de considerarlo inteligencia.
Si hace veinte años nos hubieran dicho que una computadora podría escribir ensayos, programar software, generar videos y aprobar exámenes de medicina, no habríamos dudado en llamarlo inteligencia general. Al fin y al cabo, el debate sobre si la IA entiende o simplemente calcula podría ser irrelevante si, en la práctica, los resultados ya son indistinguibles de los nuestros. Quizás el problema no sea la inteligencia de las máquinas, sino nuestra incapacidad para medirla.