¿Acaso da lo mismo?

Inteligencia Artificial , calidad y cosas que importan

Foto: @ Istock / KakigoriStudio
José L. Aznarte

 

Avance

Como si fuera el corolario inevitable de cierta idea de progreso y de toda la ciencia ficción que hemos disfru­tado, las supuestas y extraordinarias capacidades de la inteligencia artificial se han convertido en un dogma de fe contemporáneo. Sin embargo, la investigación actual en IA generativa está afectada por una grave plaga de problemas metodológicos y de carencias en el rigor científico que le es exigible: cada vez más vo­ces arrojan dudas sobre la validez de muchos de sus resultados, que, pese a todo el celofán en que vienen envueltos, no resultan realmente contrastables ni re­petibles. Para colmo, las expectativas desmedidas y la fuerte financiarización de un ecosistema comercial desbocado conviven con indicios cada vez más llama­tivos de que la estructura económica que sustenta esta tecnología, tal y como está planteada, puede tener los días contados.

Lo cierto es que el uso de sistemas generadores de textos basados en IA generativa en ámbitos sensibles (como el de los procesos de garantía de la calidad uni­versitaria) puede entrañar riesgos muy relevantes que abarcan lo técnico, lo ético, lo normativo y lo social, y que deben ser reconocidos a fin de preservar la inte­gridad, la equidad y la legitimidad. En este artículo se expone un catálogo incompleto de limitaciones severas del uso de generadores de textos, que demuestra, por un lado, que carecen de la fiabilidad mínima requerida y, por otro, que es difícil o imposible prevenir los riesgos asociados a su uso.

Todas estas consideraciones no niegan el evidente in­terés de la IA generativa: es imprescindible explorar las contradicciones que plantea y habitar las dificultades que trae con ella. Como mínimo, nos convoca a pensar en aquello que importa y a discernir cuándo las cosas no dan igual: en esos casos, haremos bien en extremar el rigor y la prudencia.

ArtÍculo

«Si usted tiene alucinaciones, aténgase a las consecuencias.»
Belén Gopegui Durán¹

 

Hace unos meses, la red europea de agen­cias de calidad, ENQA, organizó un taller sobre el uso de la inteligencia artificial (IA) en los procesos de aseguramiento de la calidad. A su vez, la agencia madrileña, la Fundación para el Conocimiento ma­dri+d, convocó un curso de verano titula­do «Una IA hablando con otra IA. Gestión de la calidad universitaria». En este curso, agentes comerciales de diversas compa­ñías acudieron a explicar que la IA «podría ser» una herramienta adecuada para auto­matizar, por un lado, la redacción de memorias de verifi­cación de títulos y, por otro, su evaluación y la preparación de los informes correspondientes. ¿Quiere esto decir que el uso de la IA en los procesos de aseguramiento de la calidad es ya un hecho como, nos dicen, lo es en tantos otros ámbitos? ¿Podemos por fin abandonar en manos de la tecnología estos complicados procesos de evaluación y dedicarnos a quehaceres más apetecibles?

Aunque en este texto miraremos más de cerca los sis­temas de garantía de la calidad en el mundo universitario, estos serán más bien una excusa para pensar en las aplica­ciones de la IA en otros procesos que también importan.

Para ello, primero veremos brevemente qué características tienen esos sistemas de calidad, para enseguida presentar algunas evidencias sobre la IA y su burbuja, algunos pro­blemas concretos del uso de los sistemas generadores de lenguaje basados en IA y, finalmente, algunas pistas para seguir pensando.

Enunciar a contramano es siempre delicado, pero a veces no queda más remedio. Así, para responder a las preguntas del primer párrafo es conveniente antes que nada saber de quién fiarse: necesitamos que las respues­tas sean rigurosas porque nos jugamos mucho y, lamen­tablemente, abundan los vendedores de crecepelo (en palabras de investigadores de Princeton2) con grandes intereses comerciales. En segundo lugar, es necesario retirar las múltiples capas de celofán en las que viene envuelta la IA3, a fin de tratar de comprender si real­mente el producto es lo que dice ser y, sobre todo, si es el producto que necesitamos.

En el caso de los procesos de garantía de la calidad, resumiendo mucho, giran generalmente en torno a un intercambio de documentos entre las universidades y las agencias de calidad. Ambas se rigen para ello por están­dares y directrices europeas, además de por la normativa estatal vigente en este ámbito. El proceso concluye con el veredicto de una agencia que resulta (o no) en una au­torización para la implantación de estudios oficiales en una universidad. Este intercambio está basado en lo que en inglés se llama «evidencias factuales», en castellano pruebas materiales, que forman parte de la documenta­ción de un título y son preparadas o bien por la propia universidad o bien por medio de una visita de la agencia al campus. Obviamente, es de crucial importancia que esas evidencias estén bien documentadas y sean reales, y que las conclusiones a las que la agencia llegue estén basadas exclusivamente en ellas. Sumado a eso, la trascendencia de la decisión nos invita a decir sin dudas que el resultado de este proceso de revisión importa: no da lo mismo.

La (pseudo)ciencia de la IA

En 1952, en lo que se considera el primer debate público sobre la IA, uno de los pioneros de la informática, Alan Turing, dijo a los micrófonos de la BBC: «Resulta ten­tador definir el pensamiento como algo compuesto por aquellos procesos mentales que no entendemos. Si esto es correcto, entonces hacer una máquina pensante es ha­cer una que haga cosas interesantes sin que entendamos realmente cómo las hace»4. En ese no entender cómo funciona la máquina pensante, la tentación de equiparar nuestra ignorancia con la que también tenemos acerca de los mecanismos del pensamiento de cualquier otra persona vuelve muy fácil el arriesgado camino de la an­tropomorfización: otorgar características humanas a la máquina, cuyo pensamiento sería tan incomprensible como el de cualquier persona.

Este proceso de antropomorfización, particularmente extendido con la IA y los sistemas generadores de lenguaje que forman parte de ella, construye realidad sobre la cen­tenaria (y discutida) noción ilustrada de progreso, a la que se suman más de cien años de ciencia ficción, desde Karel Čapek en adelante, los cuales han atravesado todo nuestro imaginario irremediablemente. Todo ello, junto a la que es sin duda la mayor campaña publicitaria de la historia, con­tribuye a que la promesa de la IA se convierta en una idea irresistible: cómo no va a ser verdad, si ha sido profetizada mucho antes de ser ingeniería. Así, desde hace unos años, se habla de la IA usando expresiones de carácter confe­sional en lugar de afirmaciones científicas: más que una moda, la IA se convierte en una fe5, y, así, es frecuente encontrar todo tipo de decisiones públicas que nos afec­tan y que se basan en la forma condicional de una promesa aún por cumplir: «podría revolucionar». (Además, en el cuerpo a cuerpo, si expresas dudas sobre el asunto, de al­guna manera cuestionas la fe de la otra persona, lo cual es siempre un terreno resbaladizo).

El resultado es que la IA ha dejado de ser un cam­po científico o una disciplina académica enraizada en las matemáticas para convertirse en otra cosa: muy proba­blemente poco más (y nada menos) que una marca co­mercial: IA™ (adornaremos las siglas en castellano con el icono típico de trade mark, en inglés, para denotar esa marca comercial). Para colmo, en lo que respecta a la in­vestigación que se hace en IA™, la presión por avanzar las fronteras de la fe algorítmica, junto al imperativo pu­blish or perish (publica o muere), ha extendido una plaga de graves problemas metodológicos que aquejan a un gran porcentaje de las publicaciones en este campo. Un recien­te metaanálisis de trabajos que presentaban 445 modelos generadores de lenguaje encontró graves problemas meto­dológicos en la mayoría de ellos, desde definiciones vagas de las variables objetivo hasta la ausencia total de tests es­tadísticos de hipótesis6. Otro trabajo, de 2021, ya alertaba de los problemas en el diseño de los bancos de prueba más habituales para la comparación de modelos de IA™, con­cluyendo que no ofrecen información significativa acerca de sus capacidades generales7. Un tercero reproduce casi literalmente el título del curso mencionado más arriba, y alerta sobre los efectos imprevistos de la delegación del trabajo científico en generadores de frases que dialogan entre ellos8.

Pero el problema va mucho más allá de una falta ge­neralizada de rigor metodológico en la investigación y práctica de la IA™. Además de aplicar correctamente los métodos, se requiere una concepción de rigor más amplia y responsable: cuando se trabaja con IA™, y especialmen­te si el resultado afecta a personas, es imprescindible ob­servar otros aspectos cruciales que tienen que ver con el rigor epistémico (qué conocimientos generales informan aquello en lo que trabajamos), el rigor normativo (cómo las normas, estándares o creencias, sean comunitarias, personales o disciplinarias, influencian nuestro trabajo), el rigor conceptual (cómo de claramente articulados están los constructos teóricos que se usan), el rigor documental (qué se documenta, cómo y por qué) y el rigor interpreta­tivo (cómo de bien fundadas están nuestras inferencias a partir de las evidencias existentes)9.

Expectativas, financiarización y burbuja

La principal amenaza al rigor en este contexto son las ex­pectativas desmedidas. Y, desafortunadamente, son justa­mente las expectativas el principal combustible del motor que propulsa a la IA™: la financiarización, ese esquema económico extractivo en el que el endeudamiento sobre­pasa con creces al capital propio. Así, se observa una so­brevaloración de las empresas principales de IA™ basada justamente en expectativas desmesuradas y en estrategias financieras complejas, que incluyen usos dudosos de la deuda como los acuerdos circulares. Según un portavoz de Morgan Stanley, «los proveedores están financiando a sus clientes y compartiendo ingresos; hay participación cruza­da de capital y una concentración creciente»10. El boom de inversiones masivas en infraestructura de IA™ oculta fragilidades reales: muchas compañías operan a pérdidas y dependen de rondas constantes de financiación. Orga­nismos internacionales como la OCDE, el FMI, el Banco Mundial o el BCE advierten de que, si la IA™ no cumple las expectativas, podría producirse una «corrección brusca del mercado», arrastrando a otros sectores. La situación recuerda poderosamente a lo ocurrido con otras burbujas financieras no tan lejanas.

Al mismo tiempo, empieza a ser evidente que va a ser muy difícil traducir todas estas expectativas creadas en los beneficios esperados. En septiembre, un grupo de in­vestigación de Carnegie Mellon University publicó un ar­tículo que mostraba que incluso el mejor agente IA™ del momento fracasaba a la hora de completar tareas reales de oficina un 70 % de las veces. Si se incluían tareas par­cialmente completadas (como responder a correos, nave­gar la web y escribir código), la tasa de fallos bajaba solo hasta el 61.7 %11. Y es que los agentes IA™ (sistemas compuestos diseñados para abordar tareas complejas) son la última gran promesa del mercado, pero, en la misma línea, un informe reciente de Gartner, la poderosa con­sultora tecnológica, predice que más del 40 % de los pro­yectos comerciales de IA™ con agentes serán cancelados antes de 2027 por causa de costes fuera de control, su va­lor de negocio vago e impredecibles riesgos de seguridad. «Ahora mismo, la mayor parte de proyectos de IA™ con agentes son experimentos preliminares o pruebas de con­cepto que son producto de esta moda y a menudo están mal aplicados», según Anushree Verma, director analista senior en Gartner12.

Para que las expectativas de las empresas financiariza­das funcionen en el mercado, deben ser asumidas también por las personas que toman las decisiones y, finalmente, por el público general, empezando por quienes en teoría se beneficiarán más de la llegada de la IA™. Sin embargo, otro estudio reciente muestra que, pese a que una muestra de profesionales de la programación con amplia experien­cia cifró en un 24 % las mejoras en la velocidad con la que esperaban trabajar gracias a la asistencia de la IA™, esa asistencia se tradujo sin embargo en una bajada efectiva del 19 % en su velocidad de trabajo. Resulta especialmen­te llamativo que, frente a esta segunda cifra, ante la pre­gunta posterior sobre su propia percepción del cambio en su velocidad de trabajo gracias a la IA™, el grupo valoró en un 20 % la mejora13. Esta disonancia cognitiva resulta, cuando menos, inquietante. No obstante, es difícil enga­ñar a todo el mundo todo el rato. Una encuesta encargada por un gran fondo de inversión con intereses económicos en la IA™ (Menlo Ventures) muestra que, hoy por hoy, solo un 3 % de los usuarios estadounidenses de chatbots paga por ellos14, y parece poco probable que esa cifra suba cuando suban los precios.

En todo caso, parece obvio que el gigante comercial IA™ puede tener los pies de barro y debemos ser por lo tanto prudentes a la hora de fiar nuestro futuro a sus pro­mesas, en especial en ámbitos de aplicación cuyo resulta­do importe y en aplicaciones cuyo resultado no dé igual.

Pero ¿funciona?

Volviendo al ámbito de los procesos de garantía de la ca­lidad, como ejemplo de procesos en los que el resultado importa, conviene analizar si las promesas que la IA™, en especial los modelos generadores de lenguaje, nos hace en este ámbito pueden ser ciertas o no. Hasta ahora, la garantía de la calidad está basada en la evaluación cua­litativa por pares, que están formados y tienen un gran dominio de los detalles del proceso. La introducción de herramientas de IA™ promete nuevas eficiencias en el análisis documental, el reconocimiento de patrones y la elaboración de informes. Sin embargo, el uso de sistemas generadores de lenguaje en este ámbito tan sensible y tan delimitado normativamente puede exponerlo a ries­gos muy relevantes que abarcan lo técnico, lo ético, lo normativo y lo social, y que deben ser reconocidos a fin de preservar la integridad, la equidad y la legitimidad de los sistemas de garantía de calidad.

La limitación más inmediata de los sistemas de IA™ generadores de lenguaje en la educación superior es de índole técnica. Estos sistemas son entrenados con volú­menes masivos de textos y generan sus respuestas de for­ma probabilista, lo que quiere decir que sus respuestas no pueden ser deterministas ni estrictamente factuales. Tener certeza sobre su precisión y verificabilidad es impo­sible. Producen a menudo afirmaciones que suenan plau­sibles, pero son falsas (el término alucinaciones encierra la antropomorfización que mencionábamos arriba), lo cual, en el contexto de la garantía de la calidad, en el que la precisión factual y la integridad documental son primor­diales, resulta evidentemente inaceptable. Una segunda limitación severa se deriva de la falta de comprensión con­textual: los procesos de garantía de la calidad dependen muy directamente de conocimientos que son específicos del contexto, como son el histórico de una titulación, el campo de estudio o las particularidades normativas de un centro. Los sistemas generadores de lenguaje carecen de comprensión semántica o situacional, por lo que muy bien pueden generar textos que contengan malas interpretacio­nes de las sutilezas del lenguaje (por ejemplo: la diferen­cia entre que un objetivo «se cumple parcialmente» o «se cumple sustancialmente»). Esta falta de sensibilidad con­textual impide confiar en esas frases producidas automá­ticamente que además requieren de un esfuerzo cognitivo comparativamente mucho mayor para revisarlas en busca de errores15.

Otra dificultad técnica tiene que ver con la calidad y re­presentatividad de los datos, porque los sistemas de IA™ dependen de vastos conjuntos de datos bien estructurados, pero generalmente la información que se tiene en cuenta en procesos de calidad (evaluaciones de asignaturas, métricas de desempeño, memorias de verificación…) suele encontrarse distribuida entre sistemas y estar en formatos inconsistentes, además de presentar mucha heterogenei­dad derivada de cómo cada institución los documenta y registra. Más aún: la opacidad de los modelos IA™ (que, incluso en los raros casos en los que su código es liberado, son vistos como impenetrables cajas negras en las que es difícil trazar cómo entradas específicas pueden producir salidas particulares) socava el principio de auditabilidad, que es central en el ámbito de la calidad y en tantos otros en los que el resultado importa. Por último, la protección de datos y la ciberseguridad también plantean serias li­mitaciones técnicas. Los procesos de calidad involucran datos sensibles: sobre el desempeño de la plantilla, los re­sultados del estudiantado o las características particulares de las instituciones. Alimentar modelos de lenguaje con estos datos (especialmente si se alojan en servidores exter­nos, más aún fuera de Europa) introduce serios riesgos de accesos no autorizados y filtraciones de datos, también si se trata de datos anonimizados16.

Además de estas severas limitaciones técnicas, que de por sí impiden la fiabilidad mínima necesaria para el uso de sistemas generadores de lenguaje basados en IA™ en asuntos importantes, las limitaciones de índole social y ética son igualmente inexorables. Pese al celofán en que se nos presentan, los modelos de lenguaje no son herra­mientas neutras: como poco, heredan los sesgos presen­tes en sus datos de entrenamiento, lo que puede llevar a distorsiones sistemáticas en sus salidas. Por ejemplo, si un sistema ha sido entrenado mayormente con textos en castellano o inglés, puede reproducir sesgos culturales y lingüísticos que pongan en desventaja a instituciones que operan en otras lenguas (lo cual es cierto también si el modelo está «alineado» con ciertos valores17).

Otra limitación importante tiene que ver con la opa­cidad algorítmica antes mencionada y la erosión de la responsabilidad que conlleva. Dado que las decisiones de una agencia tienen consecuencias reales, es impres­cindible que la atribución de responsabilidades por erro­res o resultados no deseados sea clara e inequívoca. Pero, si el error lo produce una IA™, ¿tiene que ver con datos sesgados, con una mala interpretación de las evidencias, o con un mal uso de la herramienta? Resulta difícil es­tablecer las fronteras de la responsabilidad humana y la algorítmica, lo cual, en este contexto, resulta enorme­mente problemático.

La integración de modelos generadores de lenguaje plantea también dificultades relacionadas con la con­fianza, la legitimidad y el contrato social de la educación superior. Si el profesorado, el estudiantado o la opinión pública percibe que se implementan procedimientos au­tomáticos de calidad opacos o injustos, se deteriorará fa­talmente la confianza en el sistema de acreditación, par­ticularmente si estos devalúan el conocimiento experto que apuntala la legitimidad del sistema. Por otro lado, en los conjuntos de entrenamiento de los modelos gene­radores de lenguaje suele haber multitud de textos, tam­bién académicos, cuya licencia de propiedad intelectual es violada impunemente, además de que la brecha digi­tal sigue siendo un problema: instituciones que tengan acceso a infraestructuras avanzadas de IA™ se benefi­ciarían de forma desproporcionada, lo que reforzaría una estratificación impropia del sistema.

La inclusión de la IA™ en los procesos de garantía de la calidad también plantea preguntas sobre el consenti­miento y la falta de transparencia que pueden poner en jaque la credibilidad de las instituciones, y sobre la instru­mentalización de los procesos de enseñanza y aprendizaje. Cuando el peso se pone en el análisis de datos y la evalua­ción algorítmica, hay un riesgo de reducir todo a variables medibles, dificultando una mirada holística sobre la en­señanza y el aprendizaje. Como ha quedado evidenciado en la evaluación de la actividad investigadora, esta datifi­cación de la calidad puede imponer una estandarización impropia y un viraje institucional hacia la optimización de métricas que sean tratables algorítmicamente, en lugar de promover mejoras genuinas en el sistema universitario y de impulsar los valores de reflexión crítica, diversidad in­telectual y autonomía académica.

Por último, la principal protección normativa frente al uso de sistemas de IA™ en la educación superior es el Reglamento Europeo de IA, que clasifica como de alto riesgo los «[s]istemas de IA destinados a ser utilizados para evaluar el nivel de educación adecuado que recibirá una persona o al que podrá acceder». Esta clasificación implica que esos sistemas deben cumplir una exhausti­va lista de requisitos encaminados a evitar los problemas relacionados con la gestión de riesgos, la gobernanza de datos, la transparencia, la supervisión humana, las garan­tías de precisión, solidez y ciberseguridad, entre otros.

Cumplir con estas provisiones implica que se adopten estrictas salvaguardas técnicas y procedimentales que, por su complejidad, pueden desbaratar la promesa origi­nal de mayor eficiencia.

Por si todo lo anterior fuera poco, es imprescindible enmarcar el uso de la tecnología en el delicado momento histórico en el que nos encontramos, su lugar de enuncia­ción desde una sensibilidad abrumadoramente blanca y masculina y los impactos que aquella produce en el mun­do. Ante una crisis climática inaudita con unas perspecti­vas más que sombrías, la justicia climática no puede ser un argumento secundario en ninguna discusión sobre la tecnología en general y, en particular, sobre una que es profundamente dependiente de un uso desproporcionado de energía, de agua y de recursos minerales escasos y des­igualmente repartidos18.

Quedarse con el problema

Pese a que hay sobrados indicios de que nos encontramos en una época en la que casi todo da igual, la decencia exige identificar aquello que importa, y darle espacio, y te­ner cuidado y cuidar de ello19. Por eso resulta llamativo y preocupante que una acumulación de evidencias como la que resumen las páginas anteriores no sea suficiente para, al menos en un contexto académico, convocar al rigor y mover a la prudencia en todo lo relativo a la aplicación de la IA™. Concretamente, en cuanto a los modelos gene­radores de lenguaje, resulta evidente que sus resultados son más costosos de lo que parecen y no pasan de simu­laciones: con gran consumo de energía producen textos pasables, párrafos normalizados y normalizadores que hay que mirar entornando mucho los ojos para que transmitan algo provechoso, encadenamientos plausibles de frases tí­picas que son, por definición, mediocres y que por ello excluyen lo raro, lo especial, lo invisible, aquello que suele ser más interesante20. Caros sucedáneos, en definitiva, que pueden ser al principio sorprendentes pero que, bien considerados, solo resultan aceptables en contextos en los que el resultado da más o menos igual.

Esto no quiere decir que no se trate de una tecnología interesante: es necesario explorar las contradicciones que nos plantea y habitar las dificultades que trae con ella. Si el resultado da igual, si no nos jugamos nada o juga­mos en el margen, la IA™ puede brindar una potencia nada despreciable: cuando un sucedáneo sea suficiente. En cambio, cuanto más importan los procesos y cuanto más importa nuestra participación honesta en ellos, me­nos se avienen a ser «mejorados» a través de la generación automática de lenguaje. En un inquietante negativo de la pregunta principal de este texto, lo que la IA™ desvela es que quizá hay procesos que pensábamos importantes pero que, en el fondo, no lo son tanto. Del mismo modo que los exámenes memorísticos han quedado por fin obsoletos como elementos de evaluación del conocimiento adqui­rido, es muy probable que otros muchos procedimientos, también en el ámbito de la garantía de la calidad, sean muy mejorables, o finalmente prescindibles.

En cualquier caso, los cambios inducidos por la marca comercial IA nos convocan a pensar en lo que importa. No se trata ni de rechazar de plano todos sus avances ni de aceptar de forma acrítica sus planteamientos académi­cos y comerciales, sino de prestar atención, combinando el conocimiento técnico con una mirada humanística, a cómo afecta a nuestras relaciones (también con la propia tecnología y con los procesos en que participamos) y a la construcción de futuros deseables. En paralelo, haremos bien en discernir cuándo las cosas no dan igual, y en extre­mar el rigor y la prudencia en esos casos.

Referencias:

1. Belén Gopegui Durán. Te siguen. Ed. Random House, 2025.

2. Arvind Narayanan y Sayash Kapoor. AI snake oil: what artificial intelligence can do, what it can’t, and how to tell the difference. Princeton Oxford: Princeton University Press, 2024. url: https://www.normaltech.ai/p/starting-reading-the-ai-snake-oil

3. Margarita Padilla. Inteligencia Artificial: jugar o romper la baraja. Traficantes de Sueños, 2025.

4. Alan Turing y Richard Braithwaite. «Can Automatic Calculating Machines Be Said To Think? (1952)». En: The Essential Turing. Ed. por B J Copeland. Oxford Uni­versity Press, 2004, págs. 487-506. doi:10.1093/oso/9780198250791.003.0020.

5. Brian Allenwelt. AGI is a cathedral: The Scaling Era as Revelation. Mar. de 2025. url: https://narrascaping.substack.com/p/agi-is-a-cathedral (visitado 04-12-2025).

6. Andrew M. Bean et al. Measuring what Matters: Construct Validity in Large Language Model Benchmarks. 2025. doi: 10.48550/ arXiv.2511.04703.

7. Deborah Raji et al. «AI and the Everything in the Whole Wide World Bench­mark». En: Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks. Vol. 1. 2021. doi: 10.48550/arXiv.2111.15366

8. Ariel Guersenzvaig y Javier Sánchez Monedero. «Nadie escribiendo y nadie leyendo: los generadores de texto con inteligencia artificial y la ciencia que queremos». En: Mosaic (2023). doi: 10.7238/m.n199.2309

9. Alexandra Olteanu et al. Rigor in AI: Doing Rigorous AI Work Requires a Broader, Responsible AI-Informed Conception of Rigor. 2025. doi: 10.48550/ar­Xiv.2506.14652

10. Patrick Seitz. Morgan Stanley Raises Caution Flag On AI Financing Deals. In­vestor’s Business Daily. Ago. de 2025. url: https://www.investors.com/news/tech­nology/ai-stocks-morgan-stanley-concerns-about-ai-financing-deals/ (visitado 04-12-2025)

11. Frank F. Xu et al. TheAgentCompany: Benchmarking LLM Agents on Conse­quential Real World Tasks. 2025. doi: 10.48550/arXiv. 2412.14161

12. Gartner. Gartner Predicts Over 40 percent of Agentic AI Projects Will Be Cance­led by End of 2027. 25 de jun. de 2025. url: https://www.gartner.com/en/news­room/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027

13. Joel Becker et al. Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity. 2025. doi:10.48550/arXiv.2507.09089

14. Menlo Ventures Capital. 2025: The State of Consumer AI. 26 de jun. de 2025. url: https://menlovc.com/perspective/2025-the-state-of-consumer-ai/ (visitado 04-12-2025).

15. Matthew R. DeVerna et al. «Fact-checking information from large language models can decrease headline discernment». En: Proceedings of the National Academy of Sciences 121.50 (2024). doi:10.1073/pnas.2322823121

16. Paul Ohm. «Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization». En: UCLA Law Review 57 (2009). url: https://www.ucla­lawreview.org/broken-promises-of-privacy-responding-to-the-surprising-failu­re-of-anonymization-2

17. Xuechunzi Bai et al. «Explicitly unbiased large language models still form biased associations». En: Proceedings of the National Academy of Sciences 122.8 (2025). doi:10.1073/pnas. 2416228122.

18. Ana Valdivia. «Data Ecofeminism». En: Proceedings of the 2025 ACM Conference on Fairness, Accountability, and Transparency. ACM, 2025. doi:10.1145/3715275.3732027

19. Dan Sinker. The Who Cares Era. Unfinished Business, a weblog. Mayo de 2025. url: https://dansinker.com/posts/2025-05-23-who-cares/ (visitado 06-12- 2025).

20. Ray Nayler. «AI and the Rise of Mediocrity». En: Time Ideas (nov. de 2023). url: https://time.com/6337835/ai-mediocrity-essay/ (visitado 04-12-2026).

Foto: @ Istock / KakigoriStudio. El archivo se puede consultar aquí