IT'S NEW IT'S NEW

Поиск

Как Perplexity обошла лимиты Blackwell: экономика инференса 235B-моделей с MoE

Как Perplexity обошла лимиты Blackwell: экономика инференса 235B-моделей с MoE
5 минут

Компания Perplexity поделилась деталями развёртывания дообученной модели Qwen3 235B на новейших серверах NVIDIA GB200 NVL72, оснащённых 72 ускорителями Blackwell. Этот кейс важен не демонстрацией мощности железа, а глубоким разбором реальных экономических ограничений вывода гигантских моделей: где возникают «узкие места» в вычислениях, сети и памяти, и почему физическая архитектура стойки напрямую влияет на стоимость каждого ответа пользователя.

Почему большие модели вышли за рамки одной видеокарты?

Эра, когда модель можно было разместить на нескольких GPU, подошла к концу. Qwen3 235B с её 235 миллиардами параметров — это уже задача, требующая отдельной серверной стойки. Perplexity использует NVIDIA GB200 NVL72: 18 узлов, каждый включающий 2 процессора Grace и 4 ускорителя Blackwell, объединённых в единый домен через NVLink. Каждый Blackwell оснащён впечатляющими 180 ГБ памяти HBM, а скорость обмена данными между любыми двумя устройствами внутри стойки достигает феноменальных 1800 ГБ/с.

Ключевой вывод исследования Perplexity прост по сути, но сложен в реализации: для крупных моделей недостаточно просто «втиснуть» больше видеокарт. Необходимо тщательно выстраивать модель так, чтобы ускорители не простаивали, ожидая данных. Стоимость инференса часто определяется не самими вычислениями, а дорогостоящей пересылкой промежуточных данных между устройствами. Это «стеклянный потолок» масштабирования, который ломается только за счёт инженерных решений.

Почему Perplexity выбрала именно Qwen3 235B?

Выбор пал на модель Qwen3 235B, которая использует архитектуру «смеси экспертов» (Mixture of Experts, MoE). В такой схеме модель состоит из множества специализированных блоков (экспертов), но для обработки каждого токена активируется лишь их небольшая часть. Технические спецификации Qwen указывают 128 экспертов, из которых одновременно работают только 8 на каждый токен. Это означает, что из 235 миллиардов параметров в расчёт берутся лишь около 22 миллиардов.

Для сервиса вроде Perplexity это оптимальный баланс: модель остаётся огромной по общему объёму, но каждый запрос не требует прогонки всех параметров. Экономия становится реальностью только при безупречной работе системы: грамотной маршрутизации токенов, эффективном использовании памяти и сети. Если эти компоненты работают плохо, MoE превращается в сложную, дорогую и непредсказуемо медленную архитектуру. Perplexity подчёркивает, что они не просто использовали открытые веса, а провели значительное дообучение модели Qwen и глубоко адаптировали собственный движок вывода под архитектуру Blackwell, его тензорные ядра, NVLink и специфические способы разделения модели.

Двухэтапная обработка запроса: контекст vs генерация

Perplexity реализует чёткое разделение двух фаз обработки запроса на разных типах узлов:

  • Заполнение контекста (Prefill): Узлы обрабатывают входной запрос пользователя, вычисляя кэш ключей и значений (Key-Value Cache). Этот кэш хранит промежуточные данные механизма внимания, позволяя избежать пересчёта всего контекста на каждом шаге. Это очень вычислительноёмкий этап, но он хорошо параллелизуется.
  • Генерация (Decoding): После подготовки кэша узлы генерируют ответ последовательно, токен за токеном. Здесь количество вычислений на один токен меньше, но резко возрастают требования к скорости чтения весов модели и работы с кэшем памяти, а также к задержкам.

Для этих двух этапов Perplexity использует разные стратегии разделения модели:

  • Для заполнения контекста применяется комбинированное разделение: модель распределяется по 4 ускорителям внутри одного узла, используя как тензорное, так и экспертное разделение.
  • Для генерации тензорное разделение становится менее эффективным из-за последовательной природы процесса. Компания делает ставку на разделение по данным и экспертам.

Этот подход наглядно демонстрирует, что одна и та же модель внутри единого сервиса требует разных схем размещения в зависимости от этапа обработки запроса.

NVLink: ключ к раскрепощению смеси экспертов

Главное преимущество архитектуры Blackwell в этом сценарии — огромный домен NVLink, объединяющий все 72 ускорителя в одной стойке. Предыдущие поколения часто упирались в границу одного узла (например, 8 GPU). Выход за пределы узла означал переход на более медленную внешнюю сеть (например, InfiniBand или Ethernet), что резко увеличивало задержки и снижало пропускную способность, сводя на нет потенциальный выигрыш от масштабирования.

В GB200 NVL72 Perplexity может масштабировать критически важные операции внутри стойки, не выходя на межстоечный уровень. Это критично для MoE: токены нужно быстро доставлять к нужным экспертам, а затем собирать результаты обратно. Компания детально описывает собственные оптимизированные ядра для операций распределения (Scatter) и объединения (Gather) токенов через NVLink.

Важный вывод: преимущество Blackwell раскрывается не автоматически с подключением новых ускорителей. Оно становится реальным только после глубокой переработки низкоуровневых частей системы — маршрутизации данных, квантизации, алгоритмов разделения модели. Новое железо само по себе не делает инференс дешевле; экономия приходит исключительно за счёт тонкой настройки всего стека.

Квантизация: баланс между экономией и качеством

Perplexity развернула Qwen3 235B с использованием квантизации MXFP8. Квантизация — это снижение точности представления чисел в модели, что позволяет ей занимать меньше памяти и быстрее обрабатываться. Для сервисов с высоким трафиком даже небольшие изменения точности напрямую влияют на стоимость каждого ответа.

Blackwell нативно поддерживает новые форматы, включая 8-битные (MXFP8, FP8) и 4-битные (MXFP4, NVFP4). Perplexity рассматривала переход на MXFP4/NVFP4, но обнаружила, что влияние на качество без специального дообучения модели под новый формат оказалось слишком значительным. Это важная практическая оговорка: в индустрии часто рекламируют 4-битные форматы как «почти бесплатное» решение, но для пользовательских сервисов (особенно поисковых) падение точности может быть неприемлемым.

Выбор MXFP8 выглядит взвешенным подходом. Компания получает ощутимый прирост производительности и снижения затрат на память, не жертвуя критически важным качеством ответов. Это разумный компромисс для коммерческого продукта: агрессивная экономия на железе не окупится, если пользователи начнут получать менее точные ответы.

Производительность зависит от формы запроса: практика оптимизации

Perplexity наглядно демонстрирует, что производительность на этапах заполнения контекста и генерации масштабируется по-разному:

  • Заполнение контекста: Эффективно использует параллелизм. Чем длиннее входной текст, тем больше токенов можно обработать одновременно, нагружая вычислительные блоки.
  • Генерация: Нагрузка часто ограничена не вычислениями, а скоростью работы с памятью (чтение весов, обращение к кэшу) и задержками из-за последовательного характера вывода токенов.

Это делает оптимизацию инференса всё менее похожей на универсальную настройку «ускорить модель». Требуется сложная балансировка:

  • Длина входных запросов
  • Размер пачки (batch size)
  • Количество одновременных запросов на декодер
  • Скорость передачи кэша между узлами
  • Допустимая задержка генерации для пользователя

Нарушение этого баланса приводит к простоям части стойки и увеличению задержек для пользователей. Perplexity также успешно использует спекулятивную генерацию: вспомогательная модель (например, меньшая версия той же архитектуры) предлагает черновые токены, основная модель их проверяет. Если черновики часто принимаются, итоговая скорость генерации растёт. Эта техника, применявшаяся ранее на Hopper, была успешно адаптирована под Blackwell.

Выводы: сдвиг от модели к системе

Опыт Perplexity отражает фундаментальный сдвиг на рынке ИИ: фокус смещается с самой модели («только веса») на всю распределённую производственную систему, которая её обслуживает. Открытые веса Qwen дают свободу, но реальную ценность в продукте создаёт экосистема вокруг них:

  • Дообучение модели под специфические задачи
  • Специализированный движок вывода
  • Механизмы кэширования (контекст, KV-кэш)
  • Стратегии квантизации
  • Оптимизированные сетевые ядра (NVLink)
  • Динамичное разделение модели
  • Управление очередями и нагрузкой

Для рынка это означает, что инфраструктурный барьер не исчезает, а трансформируется. Запустить локально Qwen3 235B и обслуживать значимый трафик — принципиально разные задачи. Вторая требует дорогостоящего оборудования и команды с уникальными компетенциями в области оптимизации на уровне памяти, сети и вычислительных ядер.

Для пользователей итог положителен: эти оптимизации должны привести к увеличению доступности ИИ-сервисов при сохранении качества. Для индустрии критерий жёстче: победу одержат не те, кто громче анонсирует новые модели, а те, кто сможет стабильнее и дешевле довести каждую модель до конечного пользователя. Перплексит доказывает: будущее за инженерией, а не маркетингом.

03:12
59
Поделиться:
0
Satoshi Satoshi 10 дней назад #
Показуха какая-то, у них идеальные условия тестов. А в реальности - кошмар с ценой ответа.
Оставаясь на сайте, вы соглашаетесь с Политикой в отношении cookie. Если не согласны, покиньте сайт.