Compresión Multimodal: Apple Presenta el Algoritmo VideoFlexTok para la Generación de Video

Publicado el: 05.07.2026 10:00

La generación de video está pasando de una I+D intensiva en recursos a una producción pragmática. El 4 de julio de 2026, en ICML, Apple ML Research presentó el artículo `VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization`.

A diferencia de los enfoques clásicos que dividen el video en fotogramas fijos, devorando potencia de cálculo, Apple ha desarrollado una arquitectura con longitudes de token variables (de un nivel grueso a uno fino). Este avance permite un aumento radical en la eficiencia de la compresión y generación de contenido de video. Para el mercado, esto significa que los agentes multimodales pronto podrán operar directamente en dispositivos de borde (edge devices), creando respuestas de video complejas sin la necesidad de alquilar servidores en la nube. La elegancia algorítmica de VideoFlexTok es una respuesta directa a las pesadas soluciones de los competidores, como Sora de OpenAI.

Fuente: Apple ML Research / arXiv

IA GenerativaVideoAppleTokenizaciónI+D

« Volver a la Lista de Noticias