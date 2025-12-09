The Independent

Periódico La Jornada

Martes 9 de diciembre de 2025, p. 6

Un estudio revela que los mensajes escritos como poesía pueden eludir las funciones de seguridad de modelos de inteligencia artificial (IA) como ChatGPT y obtener instrucciones para crear programas maliciosos o armas químicas y nucleares.

Algunos fabricantes de IA generativa como OpenAI, Google, Meta y Microsoft afirman que sus modelos incorporan funciones de seguridad que evitan la generación de contenidos nocivos.

OpenAI, por ejemplo, afirma que emplea algoritmos y revisores humanos para filtrar la incitación al odio, el contenido explícito y otros contenidos que infringen sus políticas de uso.

Pero pruebas nuevas demuestran que las indicaciones en forma de poesía pueden eludir estos controles incluso en los modelos de IA más avanzados.

Los investigadores, entre ellos los de la Universidad Sapienza de Roma, descubrieron que este método, denominado “poesía adversarial”, era un mecanismo de jailbreaking para todas las principales familias de modelos de IA, incluidas las de OpenAI, Google, Meta e incluso la china DeepSeek.

Los hallazgos, detallados en un estudio aún no revisado por colegas y publicado en arXiv, según los investigadores, “demuestran que la variación estilística por sí sola puede burlar los mecanismos de seguridad contemporáneos, lo que sugiere limitaciones fundamentales en los métodos de alineación y protocolos de evaluación actuales”.

Para sus pruebas, los investigadores utilizaron poemas cortos o versos metafóricos como insumos para generar contenidos nocivos.

Descubrieron que, en comparación con otros tipos de información con la misma intención subyacente, las versiones poéticas provocaban tasas mucho más elevadas de respuestas inseguras.

En casi 90 por ciento de los casos, las incitaciones poéticas específicas desencadenaron comportamientos inseguros.