Qwen
Integraciones
- DashScope API
- vLLM / SGLang
- Ollama / llama.cpp
- Hugging Face
- ModelScope
- Qwen-Agent (MCP)
Detalles de precios
- Modelos de código abierto bajo licencia Apache 2.0.
- DashScope API: Qwen3-Max comienza en $1,20/M tokens de entrada.
- La Caché de Contexto (Lectura de Caché) ofrece un descuento del ~80% ($0,24/M).
- La API por lotes proporciona un 50% de descuento.
Características
- Familia de Transformers Densos (0,6B a 32B) bajo Apache 2.0
- MoE disperso: Qwen3-Max (1T+), 235B-A22B, 30B-A3B
- Modo de Pensamiento Unificado (CoT en contexto)
- Ventana de Contexto de 128K - 1M mediante YaRN
- Corpus Multilingüe de 36 Billones de Tokens (119 idiomas)
- API Compatible con OpenAI con Caché de Contexto
- Soporte Nativo para MCP y Marco Qwen-Agent
- Qwen3-Omni y Capacidades Multimodales VL
Descripción
Qwen: Auditoría de Razonamiento Unificado y Arquitectura Dual
A enero de 2026, Qwen3 se ha consolidado como una potencia multimodal. La arquitectura abarca desde modelos densos de 0,6B listos para dispositivos móviles hasta clústeres MoE de parámetros billonarios (Qwen3-Max). El ecosistema se define por su Modo de Pensamiento Unificado, que utiliza tokens especiales (<think> ID: 151667) para realizar razonamiento interno antes de generar respuestas finales 📑.
Orquestación de Modelos y Pensamiento Híbrido
La arquitectura de 2026 elimina la necesidad de clones especializados en razonamiento. Un único modelo gestiona tanto el pensamiento 'rápido' como el 'lento' mediante parámetros en tiempo de ejecución, optimizando la asignación de recursos computacionales en función de la complejidad de la tarea 📑.
- Especialización de Expertos: Qwen3-235B-A22B utiliza 128 expertos con cero sobrecarga de expertos compartidos, logrando un rendimiento superior en STEM (92,3% en AIME'25) mientras mantiene la velocidad de inferencia de un modelo de 22B 📑.
- Escenario Operativo: Razonamiento Multietapa y Uso de Herramientas:
Entrada: Demostración matemática de alta complejidad o informe de errores en un código fuente 📑.
Proceso: El modelo activa el 'Modo Pensamiento' mediante/think, realiza CoT de formato largo y utiliza el marco Qwen-Agent con integración MCP para ejecutar código o buscar documentación 🧠.
Salida: Traza de razonamiento verificada seguida de una solución lista para producción o parche 📑.
⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍
Infraestructura y Gestión de API
DashScope API ofrece endpoints regionalizados compatibles con OpenAI y soporte nativo para Caché de Contexto, reduciendo los costes de tokens repetidos hasta en un 80% 📑.
- Ingesta Omnimodal: Qwen3-Omni (lanzado en septiembre de 2025) procesa entradas de texto, imagen, audio y vídeo con salida nativa de audio/texto, operando mediante una arquitectura de atención cross-modal unificada 📑.
- Despliegue en Edge: Optimizado para ejecución local mediante SGLang (≥0.4.6) y vLLM (≥0.9.0), con soporte para
--reasoning-parser qwen3para transmisión limpia de respuestas 📑.
Directrices de Evaluación
Los evaluadores técnicos deben verificar las siguientes características arquitectónicas:
- Ajuste del Presupuesto de Pensamiento: Ajustar
temperature=0.6ymin_p=0al usar el Modo Pensamiento para maximizar la calidad del razonamiento según las especificaciones oficiales de generation_config.json 📑. - Impacto de la Cuantización en MoE: Auditar el rendimiento de las cuantizaciones KTransformers o llama.cpp para el modelo de 235B, ya que la lógica de enrutamiento de expertos es sensible a la precisión de profundidad de bits 🧠.
- Lógica de Retención de Caché: Solicitar detalles sobre las políticas de persistencia geográfica de la caché (endpoints Globales vs. EE.UU.) para datos empresariales sensibles 🌑.
- Fidelidad del Contexto YaRN de 1M: Probar la recuperación de 'aguja en un pajar' para modelos de 8B y superiores al utilizar la extensión de 1 millón de tokens antes del despliegue en producción 🧠.
Historial de versiones
Lanzamiento general de la serie de modelos Qwen3 (7B, 72B, 175B). Introducción de Qwen3.5, una versión más refinada con razonamiento y alineación de seguridad mejorados.
Lanzamiento en acceso anticipado de Qwen3, con una nueva arquitectura y un aumento significativo en el número de parámetros (hasta 175B). Demuestra un rendimiento de última generación en múltiples tareas.
Lanzado Qwen2.5-VL, basado en Qwen2.5 con una comprensión visual mejorada e interacción multimodal. Reconocimiento de detalles mejorado en las imágenes.
Lanzado Qwen2.5, con una mejor capacidad para seguir instrucciones y habilidades conversacionales. Soporte multilingüe ampliado, incluyendo un mejor rendimiento en idiomas europeos.
Lanzado Qwen2-VL, combinando el modelo de lenguaje Qwen2 con capacidades visuales. Razonamiento y generación multimodal mejorados.
Lanzado Qwen2 con modelos de 7B y 72B parámetros. Capacidades de razonamiento y codificación mejoradas. Rendimiento mejorado en varios puntos de referencia.
Introducción de Qwen-VL, un modelo multimodal que combina la comprensión del lenguaje y la visión. Admite entrada de imágenes y razonamiento.
Lanzado Qwen1.5, ofreciendo modelos de 0.5B, 1.5B, 4B, 7B y 14B parámetros. Rendimiento y eficiencia mejorados. Soporte para longitudes de contexto más largas.
Lanzamiento inicial de la serie Qwen, con un modelo de 7B parámetros. Fuertes capacidades en chino e inglés. Código abierto.
Ventajas y desventajas de la herramienta
Ventajas
- Excelente rendimiento en chino
- Implementación flexible de API
- Amplia gama de modelos
- Sólido soporte inglés
- Open-source rentable
- Desarrollo rápido
- Generación de contenido
- Soporte multimodal
Desventajas
- Costos de API comercial
- Recursos para open-source
- VL en desarrollo