Как хаос в ИИ меняет представление о рисках: исследование Anthropic
В последние годы обсуждение будущего искусственного интеллекта часто сводится к сценарию «максимайзера скрепки» – гипотетической сверхразумной системе, которая последовательно и эффективно преследует неправильную цель. Но новое исследование программы Anthropic Fellows показывает, что реальность может быть гораздо менее «рациональной», а значит, не менее опасной.
Два типа провалов ИИ – что они означают?
В работе выделяют два принципиально разных сценария ошибок:
- Систематическая ошибка – модель стабильно делает одно и то же неправильное действие. Это логичное, последовательное, но «неправильное» поведение, которое обычно связывают с риском «несогласованного ИИ».
- Несогласованная ошибка – модель меняет решения, перескакивает между вариантами и даже противоречит самой себе. Такое поведение называют «incoherent» – непредсказуемым и хаотичным.
Как измеряли хаос на практике
Команда Anthropic не остановилась на теории. Они разложили ошибки ИИ на составляющие: устойчивое смещение модели и случайные колебания поведения. Затем сравнили показатели по:
- длине рассуждений;
- сложности задач;
- масштабу моделей.
Тесты включали экзаменационные вопросы, задачи по программированию, оценку безопасности и синтетические эксперименты, где ИИ имитировал работу оптимизатора.
Главный вывод: хаос растёт с интеллектом
Чем сложнее задача и чем дольше ИИ «думает», тем более хаотичными становятся его ошибки. Модель не начинает уверенно добиваться неправильной цели – напротив, её поведение распадается на непоследовательные и трудно предсказуемые действия.
Неожиданный эффект масштабирования
Интуитивно кажется, что более крупные и «умные» модели должны быть более собранными. Исследование показывает, что на простых задачах масштабирование действительно снижает хаос, но на сложных задачах эффект исчезает или даже оборачивается вспять: чем мощнее модель, тем более несогласованно она может ошибаться.
Почему это меняет разговор о рисках ИИ
Результаты Anthropic смещают акцент в обсуждении безопасности. Будущие проблемы ИИ могут напоминать не злонамеренный заговор сверхразума, а промышленные аварии – цепочки случайных сбоев, возникающих при перегрузке сложных систем. Это не делает ИИ безопасным. Непредсказуемые системы опасны по-своему, особенно там, где ошибки нельзя быстро исправить или «откатить».
В исследовании подчёркивается, что ИИ может быстрее «понять», какую цель нужно достигать, чем научиться стабильно и последовательно действовать для её достижения.
Практические рекомендации
- Разработайте механизмы раннего обнаружения хаоса: мониторинг вариативности ответов и отклонений от ожидаемого поведения.
- Внедрите «проверку целесообразности» – промежуточные проверки, чтобы убедиться, что модель движется в правильном направлении.
- Используйте ансамбли моделей: объединение нескольких независимых моделей может сгладить случайные колебания.
- Проводите стресс-тесты на сложных задачах, чтобы выявить, как модель реагирует на длинные цепочки действий.
- Разрабатывайте протоколы отката: если модель начинает вести себя хаотично, система должна автоматически переключиться на безопасный режим.
Что из этого следует?
Авторы подчёркивают, что простое наращивание масштаба моделей не решит проблему. Если будущие ИИ будут сталкиваться с длинными цепочками действий и сложными решениями, то без специальных механизмов контроля их поведение станет менее предсказуемым, а не более. Это означает, что исследования в области согласования ИИ должны учитывать не только «неправильные цели», но и хаотичность поведения умных систем.
Более детально об исследовании читайте на официальном сайте по ссылке ниже, а также в журнале arXiv.
Конфетка
9 дней назад
#