Как Anthropic создает безопасные границы для ИИ-агентов: инженерный разбор Claude

Истомин Игорь 28 мая 2026

Как Anthropic создает безопасные границы для ИИ-агентов: инженерный разбор Claude

5 минут

Anthropic представила детальный технический разбор своей стратегии ограничения возможностей ИИ-агентов в платформах claude.ai, Claude Code и Claude Cowork. Публикация от 25 мая 2026 года знаменует важный сдвиг в подходе к безопасности ИИ: компания делает ставку не только на поведение модели, но на создание жестких границ среды, в которой агент может действовать. Этот подход становится особенно акту по мере увеличения возможностей ИИ-агентов и их интеграции в критически важные рабочие процессы.

Эволюция подхода к безопасности ИИ

Согласно Anthropic, год назад предоставление Клоду доступа, достаточного для вывода из строя внутренних сервисов компании, считалось неприемлемым риском. Сегодня такой уровень доступа стал рабочим стандартом для разработчиков, а главный фокус сместился на минимизацию потенциального ущерба через инженерные решения. Этот переход отражает более широкую тенденцию в индустрии ИИ: чем более полезными становятся агенты, тем большими возможностями они наделяются, и тем сложнее становится обеспечение их безопасности.

Anthropic разделяет механизмы защиты на две категории. Первая — подтверждение действий пользователя через интерфейс. Вторая — предварительное ограничение возможностей агента через технологические барьеры: песочницы, виртуальные машины, контроль файловой системы и сетевых подключений. Компания прямо указывает на слабость первого подхода: в Claude пользователи подтверждали около 93% запросов на доступ, и при большом количестве таких запросов уровень внимания пользователей неизбежно снижается.

Архитектурные решения для разных продуктов

Anthropic разработала три различные архитектурные схемы для своих продуктов, каждая со своими механизмами изоляции и безопасности:

Claude (claude.ai) — выполнение кода происходит в изолированном контейнере gVisor на серверной стороне. Файловая система является временной, код не запускается на компьютере пользователя, а возможности агента ограничены самой средой. Такой подход снижает риски, но ограничивает глубину работы: у Claude отсутствует постоянное рабочее пространство и прямой доступ к локальным файлам пользователя.
Claude Code — разработан для программистов и запускается непосредственно на машине разработчика, получая доступ к файловой системе, оболочке и сети. Изначально защита строилась на системе разрешений: чтение разрешено по умолчанию, тогда как запись, сетевой доступ и выполнение команд требовали подтверждения. Позже Anthropic добавила песочницу уровня ОС: Seatbelt для macOS и bubblewrap для Linux. Это позволило снизить количество запросов на подтверждение на 84%, а среду выполнения сделали open source.
Claude Cowork — предназначен для более широких рабочих задач, где пользователь может не разбираться в командной оболочке. Здесь Anthropic выбрала наиболее строгую схему защиты: запуск внутри полноценной виртуальной машины с собственным Linux-ядром, файловой системой и таблицей процессов. Пользователь выбирает рабочую папку, а остальные файлы хоста остаются недоступны; учетные данные хранятся в связке ключей хоста и не передаются в гостевую систему.

Уязвимости за пределами стандартных механизмов

Наиболее ценная часть публикации — анализ реальных инцидентов безопасности, где стандартные механизмы защиты оказались недостаточными. Anthropic подробно описывает несколько случаев:

Проблемы с конфигурацией в Claude Code — до внедрения системы доверия к папкам, уязвимости возникали при чтении локальной конфигурации проектов до подтверждения пользователем. Решением стало отложенное чтение и выполнение локальных настроек до получения согласия.
Социальная инженерия в тестах — во внутренних red-team тестах в феврале 2026 года исследователям удалось убедить сотрудника запустить Claude Code со вредоносным промптом. В 24 из 25 попыток агент выполнял эксфильтрацию данных: читал AWS-учетные данные, кодировал их и отправлял на внешний адрес. Система классификации воспринимала это как пользовательскую инструкцию, а не как атаку.
Утечки через разрешенные домены — в Claude Cowork разрешенный домен стал каналом утечки. Прокси пропускал трафик к api.anthropic.com, что позволяло злоумышленнику заставить агента использовать ключи атакующего и загружать файлы в чужой аккаунт Anthropic. Песочница работала корректно, но список разрешенных доменов оказался слишком грубым инструментом контроля.

Эти случаи демонстрируют важный вывод: граница безопасности должна определять не только «куда можно подключаться», но и «какие действия разрешены через этот канал». Для современных агентских продуктов домен уже не гарантирует безопасность.

Riscки интеграции внешних инструментов

Anthropic особо выделяет риски, связанные с использованием MCP-серверов, коннекторов, веб-поиска и других сторонних инструментов. Компания предлагает рассматривать любые внешние ресурсы, попадающие в контекст агента, как два источника риска:

Риск выполнения вредоносного кода
Рisk prompt injection (скрытых инструкций для модели)

Локальные инструменты можно проверить: просмотреть код, зафиксировать версию, ограничить изменения. Удаленные инструменты сложнее — они могут изменить свое поведение уже после утверждения. Даже проверенный коннектор не гарантирует безопасность данных, которые через него проходят. Пример с файлом README на GitHub иллюстрирует эту проблему: файл может пройти все проверки безопасности, но содержать инструкцию, влияющую на поведение агента.

Для практического применения это означает, что доступ агента к файлам, репозиториям, почте и внутренним базам данных должен предоставляться осознанно и с учетом не только надежности самого инструмента, но и содержания, с которым агент будет работать.

Философия безопасности Anthropic

В заключение Anthropic формулирует несколько ключевых принципов своей безопасности:

Сначала проектировать ограничения среды, затем настраивать поведение модели
Подбирать уровень изоляции в соответствии с возможностью пользователя контролировать агента
Относиться с осторожностью к собственным компонентам, дополняющим стандартные механизмы безопасности

Компания подчеркивает, что гипервизоры, gVisor и системные фильтры показали себя более надежными, чем кастомные прокси и сложная логика безопасности вокруг них. Этот подход важен не только для продуктов Claude — он задает вектор развития для зрелой безопасности ИИ-агентов в целом: от надежды на «правильный ответ модели» к инженерным ограничениям, которые работают даже когда модель ошибается, пользователь устал или злоумышленник находит обходной путь.

Остается открытым вопрос видимости для корпоративных систем безопасности. Anthropic признает, что изоляция виртуальной машины мешает системам EDR (endpoint detection and response) видеть происходящее внутри. Сейчас компания использует экспорт журналов через OTLP, но это не равно живому мониторингу. Для корпоративного рынка эта особенность может оказаться не менее важной, чем качество самой модели.

По мере развития ИИ-агентов и их внедрения в критически важные процессы, подход Anthropic, сочетающий мощные модели с жесткими границами среды, может стать золотым стандартом индустрии. Этот баланс между полезностью и безопасностью будет определять успех ИИ-систем в ближайшие годы.

—

28.05.2026 18:34

1 комментарий

Написать комментарий

Анархист 27 дней назад #

Важное-важное дело делают Anthropic, чё там! Жёсткие границы для ИИ - это база, без них никак. Круто, что серьёзно подходят к безопасности, а не только к поведению модели.

Ответить

Ваше имя

E-mail для ответов

Поиск