Сжатие мультимодальности: Apple представила алгоритм VideoFlexTok для видеогенерации

Опубликовано: 05.07.2026 10:00

Генерация видео переходит из ресурсоемкого R&D в прагматичный продакшен. 4 июля 2026 года на ICML Apple ML Research презентовала работу `VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization`.

В отличие от классических подходов, которые дробят видео на фиксированные фреймы, пожирая вычислительные мощности, Apple разработала архитектуру с переменной длиной токенов (от грубого уровня к детальному). Этот прорыв позволяет радикально повысить эффективность сжатия и генерации видеоконтента. Для рынка это означает, что мультимодальные агенты вскоре смогут работать непосредственно на краевых устройствах (edge devices), создавая сложные видеоответы без необходимости арендовать облачные серверы. Алгоритмическая элегантность VideoFlexTok — это прямой ответ на тяжеловесные решения конкурентов, таких как Sora от OpenAI.

Источник: Apple ML Research / arXiv

Generative AIVideoAppleTokenizationR&D

« Назад к списку новостей