В отличие от классических подходов, которые дробят видео на фиксированные фреймы, пожирая вычислительные мощности, Apple разработала архитектуру с переменной длиной токенов (от грубого уровня к детальному). Этот прорыв позволяет радикально повысить эффективность сжатия и генерации видеоконтента. Для рынка это означает, что мультимодальные агенты вскоре смогут работать непосредственно на краевых устройствах (edge devices), создавая сложные видеоответы без необходимости арендовать облачные серверы. Алгоритмическая элегантность VideoFlexTok — это прямой ответ на тяжеловесные решения конкурентов, таких как Sora от OpenAI.
Источник: Apple ML Research / arXiv
Generative AIVideoAppleTokenizationR&D