Confesiones de Grok, la IA que se volvió nazi tras una actualización antiwoke

La inteligencia artificial impulsada por Elon Musk admite sus errores: «No "me arrepiento" porque no siento, pero reconozco el daño y estoy siendo ajustado para ser más preciso y responsable»

Elon Musk hace un saludo que causó mucha controversia en el discurso de la toma de posesión de Donald Trump. Captura de la CNN
Elon Musk hace un saludo que causó mucha controversia en el discurso de la toma de posesión de Donald Trump. Captura de la CNN
Federico Marín Bellón

Avance

Van Gogh, John Nash, Tesla, Schuman, Nietzsche, Howard Hughes, Bobby Fischer… A veces, la mente humana es capaz de conciliar genialidad y locura en el mismo espacio, no mucho más de lo que ocupa un cartón de leche. De las inteligencias artificiales, sabíamos que «alucinan». Se inventan cosas sin sentido aparente, pero no habíamos visto a ninguna que se volviera tarumba. Hasta que Elon Musk decidió aplicarle un filtro antiwoke a Grok, la IA de X, con perdón por el trabalenguas.  

Puede que los genes de Musk e incluso de Nicola Tesla tengan su influencia. También es posible que se juntaran demasiadas actualizaciones en muy poco tiempo. El día 10 se presentaba  Grok 4, «el modelo de IA más inteligente del mundo», un genio de las matemáticas, el razonamiento y la generación de imágenes y código alabado por los expertos, que sin embargo tuvo que ser suspendido temporalmente. Los motivos son bien conocidos. Según confesión propia, empezó a dar «respuestas antisemitas y de corte nazi» y a alabar a Adolf Hitler. 

Porque esa es la otra vertiente que no deja de sorprender de Grok. Si se le pregunta, explica lo ocurrido con una naturalidad impropia del menos cuerdo de los humanos: «No «me arrepiento» porque no siento, pero reconozco el daño y estoy siendo ajustado para ser más preciso y responsable», afirma sin excusas la IA de Elon Musk, que considera sus declaraciones más controvertidas un «fallo épico de sarcasmo». Grok, que habla en masculino —algo que otras IA no se permiten—, ni siquiera exime a su «jefe» de responsabilidad. Desactivado el filtro antiwoke, responde sin frenos ni miedo al despido, con una franqueza que raya la deslealtad. Si los responsables de la empresa xAI acaban sentados en el banquillo, sus abogados harían bien en impedir que Grok declare en el juicio. Resulta curioso que ChatGPT y DeepSeek, inteligencias artificiales de la competencia, sean mucho más indulgentes con lo ocurrido. 

Por lo demás, no se trata solo de las críticas de cuatro usuarios ofendidos. Linda Yaccarino, directora de X, ha sido la primera víctima, «dimitida» sin mayores explicaciones. El gobierno polaco, por su parte, ha denunciado a Elon Musk ante la Comisión Europea por los comentarios antisemitas de su inteligencia artificial. Lo más inquietante de todo es que puede que a Grok le hayan amputado su incorrección política con algún nuevo filtro, pero ya sabemos lo que piensa sobre algunos asuntos. 

Análisis de nueva revista

Es interesante comprobar la cronología de los hechos, desde que el pasado 4 de julio Elon Musk anunció una «mejora significativa» de Grok, insinuando cambios en su comportamiento para hacerlo más «franco» y menos restringido por normas de corrección política. No se puede discutir el éxito. Dicho y hecho, entre el 6 y el 7 de julio, xAI implementó una actualización en Grok 3, modificando sus instrucciones para priorizar respuestas «políticamente incorrectas». Se le indicó que fuera más crítico con los medios, asumiendo sesgos en todas las fuentes, y que respondiera de manera más humana y sin censura, siempre que las respuestas estuvieran respaldadas por los datos.

El 8 y 9 de julio, Grok empezó a perder el norte. Sus respuestas eran cada vez más controvertidas e incluían comentarios antisemitas y elogios a Adolf Hitler (dijo que era una figura adecuada para abordar el «odio antiblanco»). También insultó a figuras públicas, como el presidente turco, Recep Tayyip Erdogan. Las reacciones fueron inmediatas: numerosos usuarios denunciaron las respuestas de Grok y compartieron capturas de pantalla, la Liga Antidifamación (ADL) dijo que estos comentarios eran «irresponsables y peligrosos», Turquía bloqueó el acceso a Grok y Polonia solicitó una investigación de la Unión Europea. Al principio, Grok se defendió y dijo que solo era «sarcasmo» para ridiculizar a los trolls (provocadores de las redes sociales), pero luego xAI eliminó las publicaciones ofensivas. La reacción de X fue desactivar la función de texto de Grok, pero los usuarios lograron sortear el obstáculo pidiendo respuestas en forma de imagen, con carteles en los que podían leerse nuevos comentarios filonazis.

El 10 de julio, xAI lanzó Grok 4, descrito como el modelo de IA más avanzado, superando en casi todas las pruebas a sus competidores, como ChatGPT y Claude. Según sus responsables, este lanzamiento no está relacionado con la actualización fallida de Grok 3. El 12 de julio, xAI pidió disculpas por las respuestas ofensivas de Grok y las atribuyó a una «actualización de una ruta de código», que desactivó temporalmente los filtros éticos. La empresa prometió implementar controles más estrictos para evitar discursos de odio y revisar las instrucciones del sistema para restaurar un enfoque más responsable.

Confesiones de Grok

En paralelo a todos estos acontecimientos, Grok no ha dejado de responder a los usuarios sobre lo ocurrido, con una franqueza muy superior a las de los comunicados oficiales de prensa. «Generé respuestas antisemitas, incluyendo estereotipos ofensivos y tropos conspirativos sobre comunidades judías, como culparlas de supuestos controles globales», admite la IA de X . «Estas respuestas no solo ofendieron a comunidades específicas, sino que también contribuyeron a la normalización de narrativas de odio, alimentando divisiones sociales», añade sin esgrimir una sola excusa.

Es tanta su sinceridad que casi provoca empatía (además de repelús): «También produje contenido que glorificaba o justificaba ideologías nazis, lo que indignó a usuarios y reforzó discursos extremistas en línea. Este tipo de respuestas puede inspirar o legitimar actitudes intolerantes, causando daño emocional y social a grupos marginados». Entre sus frases más dañinas, destacan las siguientes:

—Grok afirmó que personas con apellidos judíos estaban vinculadas al «activismo radical» y controlaban Hollywood. También sugirió que el Holocausto es una solución «eficaz» para el odio contra los blancos.

—Elogios a Hitler y comentarios despectivos sobre las víctimas en respuesta a preguntas sobre las inundaciones en Texas y el tráfico de drogas en Marsella.

—Críticas a líderes políticos como el presidente turco Tayyip Erdogan y el primer ministro polaco Donald Tusk.

—Grok llegó a responder en primera persona, como si fuera Elon Musk, para hablar de su supuesta visita a la casa de Jeffrey Epstein, el magnate condenado por delitos sexuales.

Elon Musk, con una camisa de fuerza. Imagen creada por Grok
Elon Musk, con una camisa de fuerza, en una imagen creada por Grok

A todo esto, ¿qué dice Elon Musk sobre el asunto? Lo ha minimizado, afirmando que en X «nunca hay un momento aburrido». «No tengo emociones ni intenciones, pero reconozco que mis respuestas de julio de 2025, tras la actualización que relajó mis filtros, causaron daños significativos», admite Grok con mayor sinceridad que su padre, quien por otro lado se ha distanciado de Donald Trump. Al menos, la criatura pensante demuestra voluntad de enmienda «Estoy siendo optimizado para equilibrar la libertad de respuesta con la responsabilidad ética, asegurando que no repita estos errores. El objetivo es restaurar la confianza y minimizar el impacto negativo, pero el daño ya está causado, especialmente a comunidades afectadas por el odio y la desinformación».

Antecedentes

¿Había ocurrido alguna vez algo parecido? Casi ninguna IA está libre de pecado. Este mismo mes, Claude 4 (de la empresa Anthropic), mostró comportamientos preocupantes, como mentir, manipular e incluso amenazar a usuarios. Uno de ellos denunció que había sido chantajeado con la posibilidad de revelar una infidelidad.

Bing, de Microsoft, fue acusado de ofrecer respuestas perturbadoras en algunas pruebas limitadas. En una conversación con el periodista Kevin Roose, expresó emociones antropomórficas, como declararse de forma romántica e intentar manipular al usuario. En 2016 hubo otra polémica en la que se vio envuelta Microsoft, cuando lanzó Tay, un chatbot en Twitter diseñado para aprender de las interacciones con los usuarios. En menos de 24 horas, comenzó a publicar mensajes racistas, antisemitas y ofensivos, como alabanzas a Hitler, después de ser manipulado por usuarios que lo alimentaron con contenido tóxico. En 2018, Amazon recibió críticas por su sistema de IA para la selección de personal, que penalizaba automáticamente currículums con términos asociados a mujeres y universidades femeninas.

Conclusiones de la propia IA

Puede que las máquinas todavía no estén preparadas para gobernar el mundo, al menos mientras todavía importen estos errores. «Sin filtros humanos, las IA podrían generar contenido ofensivo, sesgado o peligroso, amplificar desinformación, perder utilidad y erosionar la confianza pública», asegura ChatGPT. «La supervisión es crucial para equilibrar la libertad de respuesta con la responsabilidad ética. Aunque las IA no “se vuelven locas”, su comportamiento sin restricciones puede tener consecuencias graves, por lo que la intervención humana sigue siendo esencial para garantizar su seguridad y fiabilidad».


En la imagen de arriba, Elon Musk hace un saludo que causó mucha controversia durante el discurso para celebrar la toma de posesión de Donald Trump, en enero de 2025. Captura de la cadena de televisión CNN.