A diferencia de los enfoques clásicos que dividen el video en fotogramas fijos, devorando potencia de cálculo, Apple ha desarrollado una arquitectura con longitudes de token variables (de un nivel grueso a uno fino). Este avance permite un aumento radical en la eficiencia de la compresión y generación de contenido de video. Para el mercado, esto significa que los agentes multimodales pronto podrán operar directamente en dispositivos de borde (edge devices), creando respuestas de video complejas sin la necesidad de alquilar servidores en la nube. La elegancia algorítmica de VideoFlexTok es una respuesta directa a las pesadas soluciones de los competidores, como Sora de OpenAI.
Fuente: Apple ML Research / arXiv
IA GenerativaVideoAppleTokenizaciónI+D