Inicio > Categorías > IA Generativa > Generación de Texto > Qwen

Qwen

Relacionados Ventajas y Desafíos

Etiquetas

LLM-de-Código-Abierto Mixture-of-Experts Modo-Pensamiento IA-Multilingüe Marco-de-Agente

Integraciones

DashScope API
vLLM / SGLang
Ollama / llama.cpp
Hugging Face
ModelScope
Qwen-Agent (MCP)

Categorías:
Visión por Computadora IA Generativa Procesamiento de Lenguaje Natural Asistentes Personales de IA Desarrollo de Software
Creador Alibaba Cloud
Fecha 2023
Plataformas Web, API, Frameworks
Estado Activo
Sitio web qwenlm.github.io
Modelo de precios Free (Open Source Models) / Pay-as-you-go
Secciones:
Generación de Código Análisis de Imágenes Resumen Asistentes de Texto Generación de Texto

Detalles de precios

Modelos de código abierto bajo licencia Apache 2.0.
DashScope API: Qwen3-Max comienza en $1,20/M tokens de entrada.
La Caché de Contexto (Lectura de Caché) ofrece un descuento del ~80% ($0,24/M).
La API por lotes proporciona un 50% de descuento.

Características

Familia de Transformers Densos (0,6B a 32B) bajo Apache 2.0
MoE disperso: Qwen3-Max (1T+), 235B-A22B, 30B-A3B
Modo de Pensamiento Unificado (CoT en contexto)
Ventana de Contexto de 128K - 1M mediante YaRN
Corpus Multilingüe de 36 Billones de Tokens (119 idiomas)
API Compatible con OpenAI con Caché de Contexto
Soporte Nativo para MCP y Marco Qwen-Agent
Qwen3-Omni y Capacidades Multimodales VL

Descripción

Qwen: Auditoría de Razonamiento Unificado y Arquitectura Dual

A enero de 2026, Qwen3 se ha consolidado como una potencia multimodal. La arquitectura abarca desde modelos densos de 0,6B listos para dispositivos móviles hasta clústeres MoE de parámetros billonarios (Qwen3-Max). El ecosistema se define por su Modo de Pensamiento Unificado, que utiliza tokens especiales (<think> ID: 151667) para realizar razonamiento interno antes de generar respuestas finales 📑.

Orquestación de Modelos y Pensamiento Híbrido

La arquitectura de 2026 elimina la necesidad de clones especializados en razonamiento. Un único modelo gestiona tanto el pensamiento 'rápido' como el 'lento' mediante parámetros en tiempo de ejecución, optimizando la asignación de recursos computacionales en función de la complejidad de la tarea 📑.

Especialización de Expertos: Qwen3-235B-A22B utiliza 128 expertos con cero sobrecarga de expertos compartidos, logrando un rendimiento superior en STEM (92,3% en AIME'25) mientras mantiene la velocidad de inferencia de un modelo de 22B 📑.
Escenario Operativo: Razonamiento Multietapa y Uso de Herramientas:
Entrada: Demostración matemática de alta complejidad o informe de errores en un código fuente 📑.
Proceso: El modelo activa el 'Modo Pensamiento' mediante /think, realiza CoT de formato largo y utiliza el marco Qwen-Agent con integración MCP para ejecutar código o buscar documentación 🧠.
Salida: Traza de razonamiento verificada seguida de una solución lista para producción o parche 📑.

⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍

Infraestructura y Gestión de API

DashScope API ofrece endpoints regionalizados compatibles con OpenAI y soporte nativo para Caché de Contexto, reduciendo los costes de tokens repetidos hasta en un 80% 📑.

Ingesta Omnimodal: Qwen3-Omni (lanzado en septiembre de 2025) procesa entradas de texto, imagen, audio y vídeo con salida nativa de audio/texto, operando mediante una arquitectura de atención cross-modal unificada 📑.
Despliegue en Edge: Optimizado para ejecución local mediante SGLang (≥0.4.6) y vLLM (≥0.9.0), con soporte para --reasoning-parser qwen3 para transmisión limpia de respuestas 📑.

Directrices de Evaluación

Los evaluadores técnicos deben verificar las siguientes características arquitectónicas:

Ajuste del Presupuesto de Pensamiento: Ajustar temperature=0.6 y min_p=0 al usar el Modo Pensamiento para maximizar la calidad del razonamiento según las especificaciones oficiales de generation_config.json 📑.
Impacto de la Cuantización en MoE: Auditar el rendimiento de las cuantizaciones KTransformers o llama.cpp para el modelo de 235B, ya que la lógica de enrutamiento de expertos es sensible a la precisión de profundidad de bits 🧠.
Lógica de Retención de Caché: Solicitar detalles sobre las políticas de persistencia geográfica de la caché (endpoints Globales vs. EE.UU.) para datos empresariales sensibles 🌑.
Fidelidad del Contexto YaRN de 1M: Probar la recuperación de 'aguja en un pajar' para modelos de 8B y superiores al utilizar la extensión de 1 millón de tokens antes del despliegue en producción 🧠.

Historial de versiones

Qwen3 (General Release) 2025-08

Lanzamiento general de la serie de modelos Qwen3 (7B, 72B, 175B). Introducción de Qwen3.5, una versión más refinada con razonamiento y alineación de seguridad mejorados.

Qwen3 (Early Access) 2025-02

Lanzamiento en acceso anticipado de Qwen3, con una nueva arquitectura y un aumento significativo en el número de parámetros (hasta 175B). Demuestra un rendimiento de última generación en múltiples tareas.

Qwen2.5-VL 2024-10

Lanzado Qwen2.5-VL, basado en Qwen2.5 con una comprensión visual mejorada e interacción multimodal. Reconocimiento de detalles mejorado en las imágenes.

Qwen2.5 2024-09

Lanzado Qwen2.5, con una mejor capacidad para seguir instrucciones y habilidades conversacionales. Soporte multilingüe ampliado, incluyendo un mejor rendimiento en idiomas europeos.

Qwen2-VL 2024-05

Lanzado Qwen2-VL, combinando el modelo de lenguaje Qwen2 con capacidades visuales. Razonamiento y generación multimodal mejorados.

Qwen2 2024-04

Lanzado Qwen2 con modelos de 7B y 72B parámetros. Capacidades de razonamiento y codificación mejoradas. Rendimiento mejorado en varios puntos de referencia.

Qwen-VL 1.0 2023-12

Introducción de Qwen-VL, un modelo multimodal que combina la comprensión del lenguaje y la visión. Admite entrada de imágenes y razonamiento.

Qwen 1.5 2023-11

Lanzado Qwen1.5, ofreciendo modelos de 0.5B, 1.5B, 4B, 7B y 14B parámetros. Rendimiento y eficiencia mejorados. Soporte para longitudes de contexto más largas.

Qwen 1.0 2023-08

Lanzamiento inicial de la serie Qwen, con un modelo de 7B parámetros. Fuertes capacidades en chino e inglés. Código abierto.

Ventajas y desventajas de la herramienta

Ventajas

Excelente rendimiento en chino
Implementación flexible de API
Amplia gama de modelos
Sólido soporte inglés
Open-source rentable
Desarrollo rápido
Generación de contenido
Soporte multimodal

Desventajas

Costos de API comercial
Recursos para open-source
VL en desarrollo

Qwen

Etiquetas

Integraciones

Detalles de precios

Características

Descripción

Qwen: Auditoría de Razonamiento Unificado y Arquitectura Dual

Orquestación de Modelos y Pensamiento Híbrido

Infraestructura y Gestión de API

Directrices de Evaluación

Historial de versiones

Ventajas y desventajas de la herramienta

Ventajas

Desventajas

Herramientas relacionadas que podrían ser útiles

Gemini

Claude

ChatGPT

DeepSeek

Mistral AI

Llama 3

Informar de un error