VOID

TopG 10 июня 2026

VOID — это открытая модель, разработанная Netflix Research совместно с INSAIT, которая полностью переосмысляет концепцию устранения объектов из видео.

Традиционные методы удаления объектов из видеоряда (видеоинпейнтинг) долгое время сталкивались с одной фундаментальной проблемой: они просто «замазывали» дыру, игнорируя законы физики. В результате на видео появлялись артефакты, плывущие тени и неестественные искажения.

Модель VOID (Video Object Inpainting with Causal Reasoning) совершает качественный скачок в этой области. Вместо банального заполнения пикселей, алгоритм анализирует причинно-следственные связи в кадре. Он не просто удаляет объект, а математически и визуально реконструирует то, как сцена должна выглядеть в его отсутствие: пересчитывает траектории движущихся элементов, заново генерирует падающие тени, восстанавливает отражения на глянцевых поверхностях и синхронизирует всё это с динамикой камеры.

Ниже мы подробно разберём, как устроена эта технология, кому она пригодится и как извлечь из неё максимум пользы на практике.

Анатомия инновации: Quadmask и двухэтапная обработка

Главное технологическое преимущество VOID кроется в его архитектуре, которая состоит из двух ключевых элементов.

1. Четырёхканальная маска (Quadmask)

В отличие от обычных бинарных масок (где пиксель либо удаляется, либо остаётся), VOID использует quadmask — продвинутую четырёхканальную структуру. Это позволяет нейросети семантически понимать контекст удаляемой области:

Канал 1 (Ядро объекта): Непосредственно пиксели того, что нужно убрать.
Канал 2 (Зона физического воздействия): Область, которая меняется из-за объекта (например, контактная точка ноги с землёй или искривление ткани).
Канал 3 (Вторичные эффекты): Зоны, требующие пересоздания, такие как отбрасываемая тень или отражение в луже.
Канал 4 (Неизменяемый фон): Статичные элементы, которые модель должна сохранить в первозданном виде, чтобы избежать «галлюцинаций» нейросети.

Благодаря такому разделению, алгоритм точно знает: эти пиксели нужно стереть, а эти — пересобрать с нуля, опираясь на окружающий контекст.

2. Двухэтапный пайплайн для сложных сцен

Чтобы видео не «мерцало» и не рассыпалось при движении, VOID применяет последовательную обработку:

Базовый инпейнтинг: Первичное удаление объекта и грубое заполнение области.
Fine-tuning с optical flow-warped noise: Это «секретный соус» стабильности. Алгоритм использует оптический поток (optical flow) для переноса и деформации шумовых паттернов из предыдущих кадров в текущий. Это гарантирует, что восстановленная текстура движется согласованно с камерой, устраняя эффект «плавающего» или дрожащего фона, который часто встречается в статических методах, применённых к видео.

Архитектура и искусство промптинга

Модель построена на мощной базе CogVideoX-Fun-V1.5-5B-InP. Однако её уникальность заключается в подходе к управлению: вместо команды «удали этот объект», пользователь должен описать финальное состояние сцены.

Это перекладывает часть ответственности режиссёра и оператора на плечи пользователя. Нейросеть работает как исполнитель, которому нужно чёткое техническое задание.

Пример правильного промптинга:
Плохо: «Удали человека со скамейки». (Модель может не понять, чем заполнить пустоту).
Хорошо: «Пустая деревянная скамейка в осеннем парке, на сиденье лежат два жёлтых кленовых листа, мягкий дневной свет, камера выполняет медленное панорамирование вправо».

Чем детальнее вы опишете освещение, текстуры и движение камеры после удаления, тем более физически достоверным будет результат.

Технические требования и экосистема ComfyUI

На текущий момент (середина 2026 года) VOID остаётся инструментом для продвинутых пользователей. «Тяжёлый» вычислительный процесс требует серьёзного железа:

Видеокарта: Минимум 40+ ГБ видеопамяти (VRAM). Идеально подходят NVIDIA A100, A6000 или их аналоги.
Инфраструктура: Необходима правильная структура папок, загрузка чекпоинтов и установка специфических зависимостей.

Лайфхак для владельцев слабых ПК: Если у вас нет рабочей станции такого уровня, используйте облачные GPU-сервисы (например, RunPod, Vast.ai или Lambda Labs). Аренда инстанса с A6000 обойдётся всего в несколько долларов в час, что делает технологию доступной для фрилансеров и небольших студий.

Спасение для непрограммистов: ComfyUI

Хорошая новость заключается в том, что сообщество уже адаптировало VOID для ComfyUI. Готовые визуальные графы (workflows) берут на себя всю рутину:

Автоматическая сегментация объекта.
Генерация и настройка quadmask.
Процесс удаления и финальный refinement (уточнение).

Всё это происходит в одном интуитивно понятном интерфейсе, где достаточно соединить «ноды» проводами, не написав ни строчки кода.

Где VOID раскрывает свой потенциал на 100%?

Модель незаменима в сценариях, где удаляемый объект активно взаимодействует с окружением. Простые клонирующие штампы здесь бессильны, а VOID справляется блестяще:

Источники тени: Удаление человека, отбрасывающего сложную тень на стену (VOID корректно «сотрёт» и тень, и изменённое освещение).
Отражающие поверхности: Удаление микрофона или оператора, отражающегося в витрине магазина или водной глади.
Физический контакт: Удаление предмета, который держит в руках другой человек (модель попытается реконструировать форму руки или ткани, которая была скрыта).

Ограничения и «подводные камни»

Как и любой инструмент на базе диффузионных моделей, VOID имеет свои границы:

Масштаб объекта: Если удаляемый элемент занимает более 40–50% кадра, у модели недостаточно контекстных данных для достоверной реконструкции фона.
Агрессивная динамика камеры: Резкие рывки, быстрые панорамы (whip pans) или хаотичная тряска сбивают алгоритм оптического потока, что приводит к размытию или артефактам в зоне инпейнтинга.
Зависимость от качества маски: Неточная quadmask (например, захватившая часть фона) гарантированно приведёт к искажению сцены.
Зависимость от промпта: Скупое описание результата заставит нейросеть «додумывать» детали, что может вылиться в галлюцинации.

Практическое руководство для старта

Чтобы получить профессиональный результат с первого раза, следуйте этому чек-листу:

Начинайте с малого: Используйте короткие клипы (до 3–5 секунд) с одним доминирующим объектом для удаления.
Пишите промпт как режиссёр: Описывайте итоговую картинку, а не действие. Упоминайте освещение, время суток и движение камеры.
Валидируйте маску: Всегда визуально проверяйте сгенерированную quadmask перед запуском рендера. Убедитесь, что зоны тени и отражений выделены корректно.
Учитывайте нативные лимиты: По умолчанию модель работает с разрешением
```
384&times;672
```
и длиной до
```
197 кадров
```
(примерно 6.5 секунд при 30 fps).
Пост-обработка: Генерируйте видео в нативном разрешении VOID для скорости и стабильности, а затем применяйте AI-апскейлеры (например, через ноды Topaz или ComfyUI-упскейлеры) для повышения чёткости до 4K.

Авторы и доступность

Разработка VOID стала возможной благодаря усилиям команды исследователей: Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan и Ta-Ying Cheng.

Официальная научная работа была опубликована на платформе arXiv 2 апреля 2026 года. На сегодняшний день модель находится в открытом доступе:

Исходный код и инструкции: GitHub
Веса модели и демо-версии: Hugging Face

Заключение

На данный момент VOID не имеет готового потребительского SaaS-сервиса с кнопкой «сделать красиво». Это инструмент для исследователей, VFX-художников и энтузиастов генеративного видео, готовых работать с пайплайнами. Однако способность модели переоткрывать и восстанавливать причинно-следственные связи в динамическом видеоряде делает её одним из самых ценных и перспективных инструментов в арсенале современного видеомейкера. Если вы хотите выйти за рамки примитивного «замазывания» и достичь кинематографического качества, VOID заслуживает самого пристального внимания.

Ссылка:

void-model.github.io