Un equipo internacional de científicos comprobó que la inteligencia artificial (IA) sigue cometiendo errores a la hora de responder preguntas que requieren razonamiento conceptual y no meras búsquedas en internet, lo que revela que dicha tecnología aún no iguala el pensamiento humano en tareas académicas complejas.
Según detalló la Universidad de Granada (UGR), de España, la investigación nació con el objetivo de determinar si los actuales grandes modelos de lenguaje (LLM) poseen una amplia y verdadera capacidad de resolución creativa o si, por el contrario, su funcionamiento se limita a una sofisticada gestión de los datos que esos modelos rescatan de la nube.
Para ello, la comunidad científica diseñó una batería de preguntas de alta complejidad técnica y conceptual como parte de su investigación, llamada “Humanity’s Last Exam” (“Último Examen de la Humanidad”, en español), publicada en la revista Nature.
Así, un equipo formado por 1.100 científicos de todos los ámbitos de la ciencia y las humanidades sometió a la IA a un "gran examen" para valorar su réplica a preguntas de respuesta inequívoca y verificable pero que requieren más que una búsqueda en internet.
Cada pregunta tenía una solución conocida que es inequívoca y verificable, pero que no puede responderse rápida y fácilmente mediante una búsqueda en internet.
Como detalla el artículo “Una base de referencia de preguntas académicas de nivel experto para evaluar las capacidades de la IA”, el resultado es que, a día de hoy, incluso los modelos más avanzados de IA tropiezan con conceptos científicos profundos y heredan errores de los manuales clásicos, lo que pone de relieve una marcada diferencia entre las capacidades actuales de los LLM y las de los expertos humanos en las diferentes preguntas académicas planteadas, referentes a diversos campos científicos.
En una de las cuestiones, relacionada con la paradoja Einstein-Podolsky-Rosen, la máquina falló debido a un sesgo interpretativo clásico, asumiendo una realidad objetiva en la medición que contradice los principios cuánticos.
En otro caso, relativo al experimento Stern-Gerlach, la IA reprodujo un error factual que se repite en numerosos manuales científicos, demostrando que estos sistemas pueden perpetuar equivocaciones bibliográficas si no se les entrena para discernir la respuesta correcta.
Te puede interesar
¿Te perdiste alguna? Congreso Futuro liberó todas sus charlas 2026
Viernes 6 de febrero de 2026
Investigación: El cerebro de los bebés clasifica los objetos con solo dos meses...
Lunes 2 de febrero de 2026
Medía medio metro: Hallan el dinosaurio ornitópodo más pequeño del mundo
Lunes 2 de febrero de 2026
