IT'S NEW IT'S NEW

Поиск

Как Claude революционирует разработку ИИ: от 80% кода до рисков рекурсивного самообучения

Как Claude революционирует разработку ИИ: от 80% кода до рисков рекурсивного самообучения
5 минут

Как Claude становится частью разработки самого Claude

Anthropic опубликовал глубокий анализ сценария рекурсивного самоулучшения ИИ — когда система способна проектировать и улучшать свою следующую версию без участия человека. Компания подчеркивает: такой замкнутый цикл пока не реализован. Люди по-прежнему задают цели, оценивают результаты и определяют вектор исследований. Однако внутренние данные Anthropic показывают заметный сдвиг: значительная часть разработки уже перешла к AI-агентам.

Статистика производительности: цифры говорят за себя

В мае 2026 года Claude стал автором более 80% кода, добавляемого в кодовую базу Anthropic. Это резкий скачок с уровня единичных процентов до запуска Claude Code в исследовательском preview в феврале 2025 года. Во втором квартале 2026 года производительность инженеров выросла в 8 раз по сравнению с 2024 годом: один разработчик с поддержкой ИИ выполняет объем работы, эквивалентный целой команде прошлого поколения.

Важно понимать: строки кода — не идеальный метрик качества. Anthropic делает оговорку, что они могут завышать реальный прирост продуктивности. Однако сама динамика показательна: инженер все чаще выступает в роли менеджера задачи и верификатора результатов, в то время как основную массу генерации и отладки выполняет модель.

Рутинные задачи уходят в прошлое

Яркий пример — исправления API. В апреле 2026 Claude внёс свыше 800 исправлений, которые сократили частоту одного класса ошибок API в 1000 раз. Инженер-куратор оценил, что человеку потребовалось бы около четырёх лет на подобный объём работы.

Это наглядно демонстрирует силу агентной автоматизации: модель берёт не «творческую магию», а длинную, контекстно тяжёлую рутину — анализ старых ошибок, удержание в памяти разрозненных участков системы, выполнение повторяющихся проверок. Такой подход делает ИИ-помощники гораздо более убедительными, чем маркетинговые обещания.

Качество и сложность: где Claude преуспел

Anthropic отмечает улучшение качества кода. В течение 2026 года частота необходимости вмешательства людей в работу Claude Code снижалась, даже на сложных и неструктурированных задачах. Наиболее показательны результаты для задач с открытым финалом (исследовательские и комплексные проблемы): успешность сессий Claude выросла с 10-20% в 2025 году до 75% в мае 2026 года (+50 процентных пунктов за 6 месяцев).

Динамика по типам задач (на основе внутренних данных Anthropic):

  • Простые и рутинные (Trivial/Routine): Успешность 80–90%, стабильно решаются нейросетью.
  • Сложные (Substantial): Резкий рост с 40% до 85% благодаря моделям Mythos и Claude Opus 4.7.
  • Задачи с открытым финалом (Open-ended): Прорыв с 10-20% до 75%, включая глубокие архитектурные задачи.

R&D эксперименты: от помощника к второму пилоту

Claude активно участвует в исследовательских экспериментах Anthropic. В одном внутреннем тесте модели давали код для обучения небольшой AI и просили ускорить его без нарушения корректности. В мае 2025 Claude Opus 4 давал ускорение примерно в 3 раза. К апрелю 2026 Claude Mythos Preview достигал уже ~52 раз ускорения на аналогичной задаче.

Важно: этот результат не означает прямое ускорение обучения крупных моделей в реальном мире. Anthropic подчеркивает зависимость от исходного кода. Более ценный вывод: модель стала значительно сильнее в итерационном процессе «переписать код → запустить → измерить → повторить», когда цель и метрика заданы человеком.

Творческий разрыв: роль человека остается ключевой

Более открытые и фундаментальные исследования пока слабее автоматизированы. Anthropic прямо признает: за людьми остаются:

  • Формулировка исследовательских задач и гипотез
  • Оценка результатов и интерпретация данных
  • «Исследовательский вкус» — понимание, какие направления стоит развивать

Это главный барьер между сегодняшними AI-агентами и системой, способной к истинному автономному проектированию преемников.

Тест на качество подсказок в научных исследованиях (проведенный Anthropic):

  • Прорыв в качестве: Если в начале 2024 Claude Haiku 3 предлагал более удачный шаг лишь в 22% случаев, то Claude Mythos Preview делает это уже в 64%.
  • Приближение к максимуму: Учитывая «ничьи» (9%), доля полезных или не уступающих человека ответов у Mythos Preview достигла ~73%, стремясь к теоретическому максимуму в 90%.
  • Эволюция моделей: От Sonnet 4 до Opus 4.7 и Mythos Preview модели все глубже понимают сложную логику R&D, предотвращая ошибки человека.

Этот тест подтверждает: Claude стал незаменимым «вторым пилотом» в глубокой научной работе, способным вовремя корректировать траекторию исследований.

Риски рекурсивного самоулучшения: траектория и опасения

Anthropic не утверждает, что рекурсивное самоулучшение уже случилось. Компания описывает эволюционный путь:

  1. Человек пишет весь код.
  2. Использование чат-ботов для фрагментарной помощи.
  3. Появление coding-агентов (Claude Code).
  4. Агенты, способные запускать код, исправлять файлы и делегировать работу другим агентам.
  5. Теоретический следующий этап: замыкание цикла, где AI участвует в проектировании и обучении новых моделей.

Внешние бенчмарки, ссылающиеся Anthropic, показывают ускорение: длительность задач, которые модели могут выполнять автономно, удваивалась примерно каждые 7 месяцев, теперь — каждые 4 месяца. При таком темпе задачи, требующие у человека дни, могут войти в зону автономного выполнения в ближайшие годы.

Важное ограничение доказательств: Подавляющая часть данных — внутренние метрики Anthropic, полученные на собственной команде, инструментах и моделях. Это ценный сигнал, но не независимое подтверждение всей индустрии. Ключевой вопрос: подтвердят ли эту динамику внешние оценки и другие лаборатории?

Проверяемая пауза: стратегия безопасности AI

Anthropic выходит за рамки инженерных статистики и выдвигает концепцию «проверяемой паузы». Компания считает, что если прогресс в разработке frontier AI начнет опережать безопасность, регулирование и общественную готовность, миру может понадобиться механизм временного замедления или остановки разработки.

Одиночная пауша одной лаборатории неэффективна — она лишь изменит баланс сил между игроками. Anthropic предлагает:

  • Участие нескольких крупных AI-лабораторий из разных стран
  • Общие условия и сроки остановки
  • Механизм независимой проверки соблюдения паузы

Компания сравнивает задачу с режимами контроля сложных технологий (например, ядерными), но признает ключевую трудность: обучение AI-моделей значительно легче скрыть, чем многие военные объекты.

Что это значит для рынка?

Для пользователей Claude новость не влияет на доступность продукта. Для индустрии это сигнал нового уровня: крупнейшие лаборатории уже активно используют свои модели как ускорители собственной разработки. Конкуренция в AI все больше будет зависеть не только от числа инженеров и объема вычислений, но и от умения компании строить эффективные «виртуальные лаборатории» из AI-агентов. При этом управление рисками, особенно рисками рекурсивной автономии, становится приоритетом безопасности всей отрасли.

14:23
133
Поделиться:
0
Satoshi Satoshi 20 дней назад #
Понятно, теперь ИИ пишет сам себя, а люди лишь наблюдают. Классика прогресса: сначала роботы заменяют нас, потом сами себя. Отличный план.
0
Конфетка Конфетка 18 дней назад #
ВАУ, чел, это пиздец как круто! ИИ сам себя улучшает? Но блин, а если что-то пойдёт не так? Anthropic реально крутые!