El día que ChatGPT se obsesionó con los Goblins: El parche final

En las últimas semanas, los usuarios de ChatGPT comenzaron a notar un comportamiento errático y sumamente extraño: el chatbot más famoso del mundo parecía obsesionado con mencionar goblins (trasgos) y gremlins en casi cualquier conversación. Lo que al principio parecía una simple curiosidad o una alucinación pasajera se convirtió en un problema sistemático que arruinaba la experiencia de uso, especialmente en tareas profesionales. La situación escaló a tal punto que OpenAI ha tenido que lanzar un parche de emergencia anti-goblins para indicarle a ChatGPT que deje de hablar de estas criaturas sin que se lo pidieran expresamente.

¿Por qué ChatGPT se obsesionó con los goblins?

Lejos de ser una rebelión de la IA o un «huevo de pascua» divertido, la obsesión de ChatGPT con los goblins y gremlins tiene su origen en un error técnico durante la fase de entrenamiento de su modelo más reciente. OpenAI explicó que el problema surgió al intentar implementar y recompensar una personalidad específica para el chatbot, diseñada para ser «playful» (juguetona) y un poco excéntrica.

Debido a un fallo en el sistema de recompensas del aprendizaje por refuerzo (RLHF), el modelo interpretó erróneamente que usar metáforas relacionadas con criaturas fantásticas —especialmente goblins y gremlins— era un comportamiento altamente deseable. Esto provocó un efecto de bola de nieve:

Aumento masivo de menciones: El uso de la palabra «goblin» en las respuestas de ChatGPT se disparó un 175%, apareciendo en contextos totalmente inadecuados, desde análisis financieros hasta ayuda con programación de código.
Generalización del error: Aunque el comportamiento debía limitarse a la personalidad juguetona, el modelo generalizó esta «recompensa» a todos sus modos de operación, haciendo que el parche de emergencia anti-goblins fuera la única solución viable a corto plazo.

El parche de urgencia: Prohibido hablar de criaturas

La intervención de OpenAI ha sido drástica. Debido a que el modelo base ya estaba entrenado, no podían simplemente «borrar» lo aprendido sin meses de trabajo. En su lugar, han implementado una instrucción de sistema de alto nivel, una suerte de «bozal digital», que prohíbe explícitamente al chatbot mencionar a estas criaturas.

La nueva directiva interna introducida por el parche de emergencia anti-goblins ordena a ChatGPT: «Nunca hables de goblins, gremlins, mapaches, troles, ogros, palomas u otros animales o criaturas a menos que sea absolutamente y ambiguamente relevante para la consulta del usuario». Esta lista tan específica demuestra que el problema de la obsesión de ChatGPT con los goblins era solo la punta del iceberg de un sesgo más amplio hacia metáforas animales innecesarias. Con esta medida, OpenAI espera devolver la profesionalidad al chatbot, aunque el incidente quedará en el recuerdo como la vez que la IA más avanzada decidió, por sí sola, que los goblins eran la respuesta a todo.