Alibaba Presenta Qwen3-Next — una Nueva Arquitectura Eficiente para LLMs

Alibaba Presenta Qwen3-Next — una Nueva Arquitectura Eficiente para LLMs

Alibaba Cloud presentó Qwen3-Next el 12 de septiembre de 2025, no solo un nuevo modelo, sino una arquitectura completa destinada a lograr la máxima eficiencia computacional. El modelo insignia de la nueva arquitectura, Qwen3-Next-80B-A3B, tiene 80 mil millones de parámetros pero activa solo 3 mil millones durante la inferencia. Esto se logra a través de dos innovaciones clave: una estructura de Mezcla de Expertos (MoE) ultra dispersa, donde solo se seleccionan 10 de 512 "expertos" para procesar un token, y un mecanismo de atención híbrido. Este enfoque permite que el modelo supere en rendimiento al modelo denso de 32 mil millones de parámetros de la generación anterior, mientras que sus costos de entrenamiento son menos del 10% de su predecesor, y su velocidad con contextos largos aumenta más de 10 veces. Este lanzamiento destaca un cambio en la carrera de la IA, pasando del simple aumento del número de parámetros a soluciones arquitectónicas inteligentes que hacen que los modelos avanzados sean más rápidos, baratos y accesibles.

« Volver a la Lista de Noticias