IT'S NEW IT'S NEW

Поиск

DiffusionGemma от Google: ускоренная открытая модель генерации текста за 4 раза быстрее

DiffusionGemma от Google: ускоренная открытая модель генерации текста за 4 раза быстрее
3 минуты

Обычная языковая модель генерирует текст последовательно, выдавая один токен за раз слева направо. Такой подход работает эффективно в облаке, где запросы объединяются в крупные пакеты, но на домашнем GPU видеокарта тратит время впустую, ожидая очередного токена.

DiffusionGemma переносит метод, известный из генераторов изображений, в область текста. Вместо пошагового создания она начинает с «шума» — случайного набора токенов‑заполнителей, а затем за несколько итераций «уплотняет» их до связного текста. За один проход модель обрабатывает блок из 256 токенов целиком, что позволяет генерировать абзац за один «движок», а не посимвольно.

Под капотом DiffusionGemma реализована как Mixture of Experts (MoE) с 26 млрд параметров, из которых при выводе активны лишь около 3,8 млрд. В квантованном виде модель помещается в 18 ГБ видеопамяти, что укладывается в пределы современных потребительских видеокарт.

Google измерил производительность модели: более 1000 токенов в секунду на NVIDIA H100 и около 700 токенов в секунду на RTX 5090. Увеличение в четыре раза достигается за счёт смещения узкого места с пропускной способности памяти на вычисления, которое ускоритель использует более эффективно.

DiffusionGemma построена на основе семейства моделей Gemma 4 и исследований Gemini Diffusion, к которым добавлена специализированная «диффузионная голова», оптимизированная под скорость.

Главное отличие от автокрегрессионных моделей — каждый токен в блоке «видит» все остальные, как предыдущие, так и последующие. Это ускоряет обычные задачи и существенно улучшает качество на нелинейных сценариях: редактирование кода внутри функции, исправление уже написанных абзацев, работа с последовательностями аминокислот, математическими графами и другими структурами, где контекст зависит от будущих токенов.

Команда Unsloth продемонстрировала пример, обучив DiffusionGemma решать судоку. Традиционные модели сталкиваются с проблемой взаимной зависимости цифр, тогда как двунаправленное внимание позволяет оценивать всё поле сразу. Аналогично, модель способна выполнять самокоррекцию: за несколько проходов она перечитывает свой собственный блок и исправляет ошибки, не «перенося» их дальше по тексту.

Google открыто заявляет о компромиссе между скоростью и качеством. По качеству вывода DiffusionGemma отстаёт от стандартной Gemma 4, и в случае, когда требуется максимум качества, рекомендуется использовать её оригинальную версию. DiffusionGemma ориентирована на исследователей и разработчиков, которым нужен быстрый интерактивный вывод: редактирование «на лету», генерация в реальном времени и быстрые итерации.

Экономический аспект тоже важен. Ускорение заметно в локальном, низконагруженном выводе. В облачных сервисах, где запросы уже агрегируются, автокрегрессионные модели эффективно используют ресурсы, и параллельное декодирование даёт меньше выгоды, иногда даже увеличивая затраты. На устройствах Apple Silicon с ограниченной пропускной способностью памяти ожидаемого ускорения может не быть.

Веса модели уже доступны на Hugging Face и поддерживаются широким набором инструментов: MLX, vLLM, Hugging Face Transformers. Дообучение реализовано через NVIDIA NeMo, Unsloth и собственный JAX‑тулбокс Google — Hackable Diffusion. В ближайшее время планируется поддержка llama.cpp.

Google совместно с NVIDIA провела работы по квантованию под RTX 5090 и 4090, а также использовала ускоренные ядра NVFP4 (4‑битные вычисления с плавающей точкой) для серверных платформ Hopper и Blackwell. Модель готова к работе на настольных системах DGX Spark и DGX Station, а также доступна в облаке через Model Garden на Gemini Enterprise Agent Platform и NVIDIA NIM.

DiffusionGemma не претендует заменить Gemma 4, а служит экспериментальной площадкой для новых подходов к генерации текста. Текстовая диффузия долго оставалась исследовательской идеей, но теперь её открытая версия доступна для домашнего использования. Реальная ценность будет определяться тем, насколько быстро разработчики внедрят её в процессы редактирования кода, интерактивные инструменты и задачи с нелинейной структурой текста. Пока это сильная техническая заявка, проверяемая на реальном оборудовании.

13:23
15
Поделиться:
Нет комментариев. Ваш будет первым!