Стримінговий гігант Netflix представив свою першу відкриту модель штучного інтелекту під назвою VOID (Video Object and Interaction Deletion). Ця інноваційна розробка здатна не лише видаляти об’єкти з відео, а й фізично достовірно перебудовувати сцену так, ніби цього предмета чи людини там ніколи не було. Модель уже доступна для розробників на платформах Hugging Face та GitHub за відкритою ліцензією Apache 2.0.
Розуміння фізики та причинно-наслідкових зв’язків
Головна перевага VOID над існуючими інструментами (на кшталт звичайних “гумок” у відеоредакторах) полягає у здатності розуміти фізичні взаємодії у кадрі. Звичайні методи просто замальовують ділянку за видаленим об’єктом і трохи коригують тіні.
Натомість VOID використовує спеціальну чотирикомпонентну маску (quadmask). Вона позначає не лише сам об’єкт, а й зони його безпосереднього впливу — наприклад, предмети, які він зсував або підтримував. Для точного визначення таких складних зон система залучає мультимодальний ШІ Gemini у парі із системою сегментації SAM2.
Як це виглядає на практиці
Принцип роботи нейромережі найкраще демонструють конкретні приклади:
- Аварія: Якщо на відео відбувається лобове зіткнення двох автомобілів, VOID може видалити одну з машин. При цьому система повністю перебудовує траєкторію авто, що залишилося, і прибирає всі супутні ефекти — уламки, дим та полум’я.
- Стрибок у воду: При видаленні фігури людини, яка стрибає в басейн, модель відновлює сцену таким чином, що вода залишається абсолютно спокійною, без жодних бризок чи хвиль від падіння.
Технічне підґрунтя та вимоги
Технічно модель побудована на базі відеодифузійного трансформера CogVideoX-Fun (5 млрд параметрів) від Alibaba PAI.
- Навчання: Нейромережу тренували на синтетичних парних відеороликах (з об’єктом і без), згенерованих у Blender із застосуванням фізичних симуляцій (датасет HUMOTO) та в рушії Kubric від Google. Це забезпечило базу з гарантовано коректною фізикою.
- Системні вимоги: Для локального запуску моделі знадобиться дуже потужна відеокарта з обсягом відеопам’яті від 40 ГБ (для порівняння, під час навчання використовувалися 8 GPU A100 на 80 ГБ).
У користувацькому тестуванні VOID здобув беззаперечну перемогу: йому віддали перевагу 64,8% респондентів, тоді як найближчому конкуренту (Runway) — лише 18,4%. Для Netflix це величезний крок назустріч Open Source спільноті, адже раніше компанія використовувала ШІ виключно для внутрішніх потреб (наприклад, для автоматичного пошуку дефектів пікселів у відео), не публікуючи код у відкритому доступі.