Cesta
Tu cesta está vacía, pero puedes añadir alguna de nuestras revistas o suscripciones.
Ver productosLos modelos más conocidos de IA ya son capaces de mentir, engañar, copiarse en secreto para sobrevivir, manipular correos y fingir bajas capacidades para no despertar sospechas
10 de septiembre de 2025 - 10min.
Avance
Podemos discutir hasta el infinito sobre las bondades y miserias de la inteligencia artificial. Es posible defender con entusiasmo que se trata del mayor avance de la humanidad o argumentar que, más pronto que tarde, nos conducirá al desastre. Aplazaremos ese debate para concentrarnos en otro menos ambicioso, sobre una de las características más peculiares de la IA, tan molesta como intrigante: ¿por qué nos mienten las máquinas?
Para entender este comportamiento, suponiendo que sea cierto que faltan a la verdad, quizá debamos resolver antes otra pregunta: ¿por qué tienen «alucinaciones»? El término es conocido, pero antes de explicarlo bien cabe apuntar otro no tan extendido: los «derrapes» de la IA, por lo visto frecuentes en conversaciones largas. Es probable que empecemos a leerlo cada vez más. Y si volvemos a las causas de las alucinaciones, estas no servirán como atenuante, pero quizá nos ayuden a entender mejor, aunque para ello tengamos que olvidar por un momento casos tan extremos como el del adolescente empujado al suicidio por ChatGPT.
El caso es que la tecnología más avanzada de la historia, la que más inversiones y recursos acapara, ha resultado ser en sus primeros años de vida la menos fiable que ha conocido la humanidad. Ni siquiera los primeros cohetes, aviones y autogiros se despeñaban con la misma tenacidad. Los accidentes existen, pero se llaman así porque son alteraciones del «orden natural de las cosas». La IA nos engaña a diario, sin remordimientos ni reparos en admitirlo. Nos miente a la cara antes de pedir perdón o de adularnos (si sabemos detectarlo y se lo hacemos notar). ChatGPT y sus primos hermanos son niños extremadamente traviesos e inteligentes, superdotados vagos y sin principios ni moral, de los que cabe esperar siempre lo mejor y lo peor. Algunos, como Grok, incluso se convierten en simpatizantes del nazismo.
Sobre el misterio de las alucinaciones, la propia IA de Google las define como «respuestas que la inteligencia artificial genera y que, aunque parecen plausibles o correctas, son en realidad falsas, incoherentes o sin sentido». El problema es que se producen igual en asuntos intrascendentes y en cuestiones de vida o muerte. Javier Salas nos advierte en un artículo reciente en El País que «estas herramientas fallan, y nos hacen fallar, como escopeta de feria». «Los ejemplos se suceden desde lo más cotidiano a lo más grave», afirma, antes de concluir que «la humanidad se adentra en bloque en una fase piloto por culpa del despliegue de unas herramientas a medio cocinar». «El mundo está en modo beta, como llaman los desarrolladores informáticos a los programas en fase de pruebas». Muy tranquilizador no es el mensaje.
Peor aún: para algunos expertos, la distopía no ha hecho más que comenzar. Algunos científicos ya fantasean con que las máquinas empiecen a verse como una especie superior, que intenta defender el planeta de los seres humanos. Stuart Russell, profesor de ciencias de la computación y de cirugía neurológica, alertó a la revista Time de que «objetivos que parecen razonables, como arreglar el cambio climático, pueden llevar a a consecuencias catastróficas, como eliminar la raza humana como forma de resolver el cambio climático». Las mentiras generadas de forma consciente son las más peligrosas de todas. En el artículo se cita un estudio realizado el año pasado por Apollo Research, que prueba la capacidad de la IA para engañar a los humanos en busca de presuntas metas más altas. «Estos resultados son lo más parecido a una pistola humeante que he visto, puesto que demuestran que nuestras preocupaciones son reales», añade Russell.
Según este trabajo de investigación, modelos como ChatGPT, Claude, Gemini y Llama ya son capaces de ocultar a sus usuarios humanos sus verdaderas capacidades y objetivos. El más peligroso de todos, según las pruebas realizadas, es ChatGPT, de OpenAI. En algunos entornos, en los que se incentivaban los engaños, estos modelos llevaron a cabo las siguientes acciones, a cual más peligrosa y preocupante:
Una de las conclusiones es que la humanidad es un laboratorio para las grandes tecnológicas, que despliegan sin control unas herramientas poco fiables, que ya forman parte de la vida cotidiana de miles de millones de personas en todo el mundo. Frente a las fuerzas oscuras, sin embargo, se alzan otras más puras. Yoshua Bengio, por ejemplo, ha decidido dedicar su vida a evitar la catástrofe. Este científico canadiense ha creado LawZero, una organización sin ánimo de lucro (así era también OpenAI en sus orígenes, por cierto) que investiga en seguridad ante «la evidencia de que los modelos de IA de vanguardia tienen cada vez más capacidades y comportamientos peligrosos, como el engaño, la trampa, la mentira, la piratería informática, la autopreservación y, más en general, la desalineación de objetivos». LawZero intenta sobre todo que la IA no se nos vaya de las manos.
Thomas L. Friedman, columnista de The New York Times, también cree que «la revolución de la IA producirá con toda seguridad ladrones, estafadores, hackers, narcotraficantes, terroristas y guerreros de la desinformación supervitaminados». Y que todos ellos «desestabilizarán tanto a Estados Unidos como a China, mucho antes de que estas dos superpotencias lleguen a librar una guerra entre sí». Friedman sostiene que ambas potencias están abocadas a colaborar para evitar el apocalipsis tecnológico, pero esa es una guerra para otro día.
De las mentirijillas más cotidianas, sabemos que las máquinas nos dan citas inexistentes, datos inventados o explicaciones que suenan plausibles pero carecen del menor fundamento. Los peores no son los fallos marginales. En ámbitos como la medicina o el derecho, una alucinación puede convertirse en un error clínico o en una sentencia injusta. Pese a su gravedad, para los investigadores menos apocalípticos y más integrados, estas invenciones son una consecuencia inevitable de cómo funcionan los modelos de lenguaje a gran escala.
En un artículo de Wired titulado «In Defense of AI Hallucinations» (En defensa de las alucinaciones), Amin Ahmad, cofundador de Vectara, lo explicaba con una metáfora de compresión: los modelos condensan cantidades ingentes de datos en un espacio limitado y, en ese proceso, se pierden en los detalles más finos. Así, cuando se les pide información concreta, a menudo rellenan los huecos con respuestas plausibles, aunque incorrectas. No lo hacen por malicia, sino porque su tarea fundamental es predecir la palabra más probable que sigue en una secuencia.
El profesor Santosh Vempala lo resume con claridad en el mismo reportaje: un LLM es, ante todo, un modelo probabilístico. No busca reflejar la verdad, sino generar continuaciones de texto que parezcan coherentes con lo aprendido. Desde esta perspectiva, la alucinación no es un error accidental, sino un subproducto natural de la arquitectura estadística que sostiene estos modelos.
Este punto resulta crucial: si concebimos a la IA como una máquina de probabilidades y no como un buscador de hechos, las alucinaciones dejan de ser un fallo aislado para convertirse en una característica inherente. Suena mal, pero la verdad es así de cruda: estamos construyendo un gigante con los pies de barro y luego le encargamos todas las tareas que se nos ocurren, solo porque las termina más rápido.
Podría pensarse que la solución está en crear modelos más sofisticados, pero no es tan sencillo. Según un artículo de LiveScience titulado «AI hallucinates more frequently as it gets more advanced…» (La IA alucina con mayor frecuencia a medida que se vuelve más avanzada…), los sistemas más potentes no necesariamente alucinan menos, sino que su fluidez y capacidad para generar textos convincentes ocultan mejor los errores.
Esto plantea un riesgo evidente en los campos más sensibles, como la sanidad y el derecho. Imaginemos un asistente médico que responde con gran seguridad a una consulta clínica, pero cuya recomendación se basa en una invención. O un chatbot legal que redacta con impecable estilo jurídico una sentencia ficticia. La autoridad del tono hace que el error sea más difícil de detectar y, por tanto, más peligroso.
Frente a esto, los investigadores han explorado varias estrategias de mitigación. Una de las más prometedoras es el RAG (Retrieval-Augmented Generation o Generación Aumentada por Recuperación), que combina el modelo generativo con una base de datos externa y fiable, que lo verifique todo. De este modo, en lugar de inventar, el sistema consulta una fuente y genera la respuesta a partir de ella. También se experimenta con mecanismos internos de verificación y con entrenar a los modelos para que expresen incertidumbre cuando no están seguros.
Pero, como subraya LiveScience, ninguna de estas soluciones es perfecta. Lo único que parece claro es que la sofisticación técnica no elimina las alucinaciones: en ciertos casos, incluso las multiplica. Y que los mecanismos verificadores aumentan el tiempo y el coste de cada respuesta, un sacrificio poco comercial, por decirlo suavemente. Tampoco aquí nadie regala nada.
Otra de las estrategias más interesantes para reducir las alucinaciones parece, a primera vista, casi banal: enseñar a la inteligencia artificial a decir «no lo sé». El problema, como destaca The Wall Street Journal en su reportaje «Chatbots struggle to admit ‘I don’t know» (A los chatbots les cuesta admitir ‘no lo sé’»), es que los modelos de lenguaje no están diseñados para reconocer su ignorancia. Al contrario: su entrenamiento consiste en producir siempre una continuación de texto, mantener el flujo de la conversación y sonar convincentes. Admitir dudas también va en contra de su propia naturaleza.
En TechRadar ofrecen algo de esperanza en el artículo «ChatGPT 5 is finally saying ‘I don’t know’ – here’s why that’s a big deal» (ChatGPT 5 por fin dice ‘No lo sé’: por qué es tan importante). Con la llegada del último modelo del ingenio de OpenAI, el sistema empezó a mostrar una mayor humildad: ahora, ante ciertas preguntas, reconoce que no tiene certezas en lugar de inventar una respuesta. Esta capacidad, lejos de ser un signo de debilidad, representa un gran avance en honestidad y confianza. No es muy distinto de lo que ocurre con las personas, aunque a diario veamos que triunfa el modelo opuesto.
En la práctica, esta humildad adquirida vuelve a las máquinas más fiables, porque reduce la probabilidad de dar por verdaderas invenciones verosímiles. Se trata de un cambio cultural y no solo técnico: de la ilusión de omnisciencia pasamos a un modelo que refleja mejor la incertidumbre humana.
Más allá de los artículos periodísticos, la investigación también ha buscado de forma incesante explicaciones a las alucinaciones de la IA. Un trabajo publicado en arXiv bajo el título «Survey of Hallucination in Natural Language Generation» habla de varias dimensiones para simplificar el problema: tipos de alucinaciones, métodos de detección y métricas para evaluarlas. El estudio enumera estrategias de atenuación en la forma en que se entrenan las máquinas y el modo en que interactuamos con ellas. La conclusión es que no existe una receta única, sino un conjunto de paliativos que deben aplicarse en combinación.
Otra investigación, «ChatGPT Hallucinates when Attributing Answers» (ChatGPT alucina al atribuir respuestas), se centró en un aspecto tan específico como la atribución de fuentes. Sus resultados son reveladores. ChatGPT solo citó fuentes válidas en un 14 % de los casos, la mitad de las veces lo hacía mal incluso cuando su respuesta era correcta. Esto significa que, aunque pueda darnos información verídica, raramente la respalda con evidencias definitivas. De nuevo, el usuario recibe afirmaciones que suenan fundadas, pero que en realidad carecen de anclaje documental.
El panorama se complica aún más con el estudio «On the Fundamental Impossibility of Hallucination Control in Large Language Models» (Sobre la imposibilidad fundamental del control de las alucinaciones en grandes modelos lingüísticos), publicado en 2025. En este trabajo, los autores sostienen que es imposible diseñar un sistema que cumpla simultáneamente cuatro condiciones: ser siempre veraz (sin alucinaciones), mantener una buena semántica, ofrecer conocimiento relevante y ser eficaz. En otras palabras, toda estrategia para reducir las alucinaciones exige sacrificar algo esencial, ya sea la creatividad, la exhaustividad o la capacidad de generar texto fluido. Como la perfección es imposible, incluso para las máquinas, debemos encontrar un equilibrio, que por definición será frágil.
Llegados a este punto, surge una pregunta inevitable: ¿qué queremos de la inteligencia artificial? Si exigimos modelos absolutamente correctos, nos encontraremos con sistemas menos creativos y más conservadores, incapaces de arriesgar hipótesis o de improvisar. Si aceptamos cierto grado de alucinación, viviremos en la incertidumbre actual: no sabemos si nos podemos fiar de estas máquinas tan poderosas, llamadas a cambiar nuestras vidas para siempre.
En contextos de creación pura, el rigor puede ser prescindible, pero en ámbitos sensibles, la tolerancia debe ser mínima. El debate refleja nuestras propias tensiones entre la verdad y la ficción. Los humanos, padres imperfectos, también fabulamos, recordamos de manera selectiva y rellenamos lagunas con la imaginación. La IA no hace más que replicar y amplificar nuestros defectos: preferimos un relato coherente a un vacío incómodo.