В OpenAI объяснили, откуда в ChatGPT взялись гоблины и тролли
Как безобидная шутка нейросети вышла из-под контроля.
В последнее время пользователи нейросетей от OpenAI заметили забавную особенность: чат-боты начали активно использовать в своих ответах мифических существ. В центре внимания оказались гоблины, гремлины и тролли. В компании решили разобраться, почему чат-боты начали упоминать странных существ, и выпустили большое исследование под названием «Откуда взялись гоблины».
Как выяснилось, всё началось в ноябре 2025 года после запуска модели GPT-5.1. Тогда разработчики обратили внимание на жалобы пользователей на излишнюю фамильярность модели. Один из специалистов по безопасности заметил, что нейросеть всё чаще использует фэнтезийные метафоры. Так, частота употребления слова «goblin» (гоблин) выросла на 175%, а «gremlin» (гремлин) — на 52%.
Расследование показало, что причиной стала системная ошибка — побочный эффект обучения функции кастомизации личности. Проблема заключалась в том, что обученное поведение вышло за пределы одного режима. Обучающие данные с такими ответами попали в следующие версии нейросетей, включая GPT-5.5 и специального помощника Codex.
В итоге чат-боты начали упоминать не только гоблинов, но также енотов, огров и голубей даже в тех диалогах, которые вообще не требовали таких сравнений. Например, при просьбе нарисовать единорога нейросеть могла выдать изображение гоблина с рогом.
«В отличие от ошибок в моделях, которые проявляются в виде резкого снижения оценки или скачка показателей обучения и указывают на конкретное изменение, эта ошибка возникала незаметно. Один-единственный «маленький гоблин» в ответе мог быть безобидным, даже очаровательным. Однако с течением времени, по мере развития моделей, эту привычку стало трудно не заметить: гоблины продолжали размножаться, и нам нужно было выяснить, откуда они берутся», — рассказали в OpenAI.
Чтобы исправить ситуацию, разработчикам пришлось отказаться от этой модели и отфильтровать обучающие данные. Однако для модели GPT-5.5 это произошло с опозданием: обучение началось раньше, чем нашли причину. В результате в код модели пришлось добавить отдельную инструкцию, которая строго подавляет упоминания странных созданий.
В OpenAI отметили, что этот случай стал важным уроком для всей индустрии искусственного интеллекта. Теперь компания разрабатывает новый инструментарий, который поможет предотвращать подобные аномалии ещё на этапе обучения.