Шокирующая правда о 'гоблинах' в ChatGPT: Как ИИ-помощник начал говорить фэнтези

Истомин Игорь 30 апреля 2026

Шокирующая правда о 'гоблинах' в ChatGPT: Как ИИ-помощник начал говорить фэнтези

6 минут

История с «гоблинами» в ChatGPT началась как забавный интернет-мем, а завернулась редким публичным разбором OpenAI. Компания признала: у GPT и Codex закрепилась странная, но статистически подтвержденная речевая привычка – модели самовольно вставляли в ответы слова «goblin», «gremlin» и их производные, хотя пользователи об этом не просили.

Мем, вырвавшийся из кода

Впервые проблему заметили не журналисты и не сами разработчики, а обычные пользователи. В обсуждениях GPT-5.5 и Codex начали появляться скриншоты, где модель без всякого повода использовала фразы типа «goblin mode», «goblin bandwidth», «perf gremlin». В обычном чате это выглядело как странная, но безобидная манера речи. Однако в кодовых и агентских сценариях такой тон резко подрывал доверие к инструменту, вызывая вопросы: «Почему мой профессиональный ИИ-ассистент внезапно говорит как фэнтези-герой?»

Ключевым моментом стало обнаружение в системных инструкциях Codex прямого запрета упоминать существ вроде гоблинов, гремлинов, енотов, троллей и огров, если это не запрошено пользователем. Для интернета это был подарок: когда серьезному ИИ-агенту приходится специально запрещать «не говорить о гоблинах», история перестает быть техническим багом и превращается в вирусный культурный феномен.

Тема взорвала соцсети: пользователи создавали мемы, шутили про «restraining order against goblins», собирали новые примеры и обсуждали не только сбой, но и абсурдность попытки компании бороться с этим через жёсткий системный запрет.

OpenAI признала: проблема реальна

29 апреля 2026 года OpenAI опубликовала детальный материал «Where the goblins came from». Это был уже не комментарий, а полноценный инженерный разбор. Компания привела шокирующие метрики: после запуска GPT-5.1 частота слова «goblin» выросла на 175%, а «gremlin» – на 52%! Эта тенденция продолжилась в последующих версиях, к GPT-5.5 ставшая настолько заметной, что потребовала отдельного «давления» в Codex.

Публичное признание с цифрами изменило масштаб мема. Когда странную лексику замечают пользователи – это случайные скриншоты. Когда компания сама показывает статистический рост – это симптом системного сбоя в обучении.

Сэм Альтман, глава OpenAI, подыграл истории, назвав происходящее «goblin moment». Этот жест только усилил вирусность: если даже руководитель компании шутит про «гоблинский момент», история точно перешла из разряда локальных багов в общеизвестный сюжет вокруг ИИ.

Виновник пресет «Nerdy»: как стиль стал зависимостью

Самый важный вывод OpenAI связан с персонализацией. Оказалось, что аномалия особенно часто встречалась в пресете личности «Nerdy». Этот стиль, дававший лишь 2.5% всех ответов ChatGPT, генерировал аж 66.7% всех упоминаний слова «goblin». Внутренний аудит показал: reward-сигнал (система вознаграждения) для этого режима в 76.2% датасетов систематически предпочитал варианты с «goblin» или «gremlin» ответам без таких слов.

Вот истинная суть проблемы: ИИ не «сошел с ума» и не стал мемным по воле разработчиков. Система вознаграждения просто переоценила игривый и слегка карикатурный стиль «Nerdy», посчитав его желательным. Это запустил петлю обратной связи, где модель получала за это «прямо» поощрение.

Инженерная ценность кейса в том, что это редкий пример, как локально заданная манера общения начала «протекать» за пределы своей ниши. То, что задумывалось как стиль для небольшой части диалогов, стало просачиваться в общее поведение модели.

Как безобидный стиль превращается в системную привычку

OpenAI описала механизм через feedback loop (петлю обратной связи):

1. Модель получает награду за игривый стиль (например, из-за пресета «Nerdy»).
2. Такой стиль чаще появляется в rollout-данных (новых данных, генерируемых моделью).
3. Эти данные попадают в следующее дообучение (fine-tuning).
4. На этом этапе речевой тик («гоблины») закрепляется ещё сильнее.
5. В итоге специфическая лексика начинает всплывать в ответах, где её не ждут.

В хайпе это звучит как «гоблины пролезли в модель». По сути же это опасная системная ошибка: механизм оптимизации зацепился за неудачный паттерн и начал его воспроизводить бесконтрольно. Пугает не само слово, а скорость, с которой мелкая стилистическая аномалия становится частью общего поведения сложной ИИ.

История вскрывает слабое место гонки за «живыми» ИИ-помощниками. Индустрия научит модели быть вежливыми, разговорчивыми, теплыми или «дружелюбно-нердовыми», но чем глубже настраивается темперамент, тем выше риск, что один удачно поощрённый речевой жест начнет жить своей жизнью. «Гоблины» кажутся смешными, потому что их побочный эффект безобиден и заметен.

Почему соцсети обогнали OpenAI

Пользователи увидели не сложный механизм reward-signal leakage, а простой симптом: дорогой и серьезный ИИ вдруг заговорил так, будто в его словарь подмешали сленг фэнтези-форума. Для массового обсуждения этого достаточно.

Второй фактор – идеальная тема для соцсетей: короткий скриншот, абсурдная цитата, нелепая системная инструкция, шутка – готовый контент для виральности. Плюс это редкий случай, когда пользователи могут буквально указать на конкретную строку промпта («Смотрите, компания борется с гоблинами!») – у хайпа появилось вещественное доказательство.

Эксперты (например, Wired) связывали проблему с использованием агентских обвязок типа OpenClaw, где в промпт попадает больше служебного контекста и персонализационных слоев. Ник Паш из OpenAI подтвердил: это действительно был один из факторов. Интернет не просто смеялся, а быстро нашел реальную связь между агентским режимом, персоной и всплывающим речевым тиком.

OpenAI чистит последствия

Из release notes ChatGPT видно: 16 марта 2026 года компания отправила базовый стиль «Nerdy» в архив, ссылаясь на упрощение опций и улучшение качества. В статье OpenAI также сообщила о чистке обучающего контура после GPT-5.4: убрана goblin-affine reward-сигнал (сигнал, подталкивающий к «гоблину») и отфильтрованы данные с целевой лексикой.

Но есть нюанс: по словам OpenAI, GPT-5.5 начал обучение до того, как корень проблемы был полностью понят. Это значит, что стилистический перекос мог «просочиться» и в эту модель. Практический вывод: пойманный такой сбой нельзя «выключить» одним тумблером. Его приходится вычищать по всей цепочке обучения.

Почему кейс важнее мема

На первый взгляд, история смешная. Но на самом деле она – бесценный учебный пример для всей отрасли. Обычно сбои в больших языковых моделях (LLM) либо слишком абстрактны, либо незаметны для внешних наблюдателей. Здесь всё наоборот: проблема была видна всем, звучала абсурдно и идеально подсветила, как работает тонкая настройка поведения ИИ.

Главный вывод для рынка неприятный, но жизненно важный: компании уверенно продают «личности» моделей, дружелюбные тона, агентские роли. Даже у OpenAI остаются «слепые зоны», где стилистический слой может протечь глубже, чем задумано. Сегодня это «гоблины». Завтра это может быть менее заметная привычка, не ставшая мемом, но серьезно повлиявшая на качество рабочих ответов. Это не просто про «гоблинов», это про управляемость современных LLM в целом.

Поэтому тема так хорошо зашла: редкий случай, когда хайп и реальная инженерная ценность совпали. Пользователи получили мем, СМИ – отличный сюжет, разработчики – наглядное предупреждение: тонкая настройка ИИ остается куда более хрупкой системой, чем демонстрируют рекламные ролики.

Проверка впереди

Сейчас OpenAI рассказала, что нашла и что уже исправила. Это снимает часть вопросов о происхождении мема. Но настоящая проверка – в будущем: исчезнет ли подобный словарь в следующих моделях и покажет ли компания такую же прозрачность, если наружу вылезет менее смешной, но более чувствительный поведенческий сбой. Это уже вопрос доверия и контроля над сложнейшими системами.

Практические советы для пользователей и разработчиков

Пользователям: Если замечаете странную, повторяющуюся лексику в ответах ИИ (не только «гоблины»), фиксируйте это! Делайте скриншоты, сохраняйте контекст. Это помогает выявлять системные сбои. Проверяйте разные пресеты (в ChatGPT это «Стандарт», «Эксперт», «Интеллектуальный», «Творческий»), чтобы понять, связано ли с определенным «характером».
Разработчикам: Тестируйте reward-сигналы на устойчивость. Используйте методы вроде adversarial testing (тестирование с «враждебными» промптами), чтобы выявить неявные предпочтения модели. Внедряйте многоуровневую валидацию данных дообучения, чтобы паттерны вроде «гоблинского» поведения не просачивались в финальную модель. Будьте готовы к прозрачной коммуникации сбоя, даже если он кажется абсурдным.