Qwen
Интеграции
- DashScope API
- vLLM / SGLang
- Ollama / llama.cpp
- Hugging Face
- ModelScope
- Qwen-Agent (MCP)
Детали цены
- Модели с открытым исходным кодом под лицензией Apache 2.0.
- API DashScope: Qwen3-Max начинается от $1,20 за миллион входных токенов.
- Кэширование контекста (чтение из кэша) предоставляет скидку ~80% ($0,24 за миллион).
- Пакетный API обеспечивает скидку 50%.
Возможности
- Семейство Dense Transformer (от 0,6B до 32B) под лицензией Apache 2.0
- Разреженные MoE: Qwen3-Max (1T+), 235B-A22B, 30B-A3B
- Режим Unified Thinking (CoT в контексте)
- Окно контекста 128K–1M через YaRN
- Многоязычный корпус объёмом 36 триллионов токенов (119 языков)
- API, совместимый с OpenAI, с кэшированием контекста
- Нативная поддержка MCP и фреймворк Qwen-Agent
- Qwen3-Omni и мультимодальные возможности VL
Описание
Qwen: Двухархитектурный аудит и унифицированное мышление
По состоянию на январь 2026 года Qwen3 превратился в мультимодальную платформу. Архитектура охватывает от мобильных моделей Dense объёмом 0,6B до кластеров MoE с триллионом параметров (Qwen3-Max). Экосистема определяется режимом Unified Thinking, который использует специальные токены (<think> ID: 151667) для внутреннего рассуждения перед генерацией окончательных ответов 📑.
Оркестрация моделей и гибридное мышление
Архитектура 2026 года устраняет необходимость в специализированных клонах для рассуждений. Одна модель управляет как «быстрым», так и «медленным» мышлением через параметры времени выполнения, оптимизируя распределение вычислительных ресурсов в зависимости от сложности задачи 📑.
- Специализация экспертов: Qwen3-235B-A22B использует 128 экспертов с нулевыми накладными расходами на общих экспертов, обеспечивая превосходную производительность в STEM (92,3% на AIME'25) при сохранении скорости инференса модели объёмом 22B 📑.
- Операционный сценарий: Многоэтапное рассуждение и использование инструментов:
Входные данные: Сложное математическое доказательство или отчёт об ошибке в кодовой базе 📑.
Процесс: Модель активирует режим «Thinking Mode» через/think, выполняет длинную цепочку рассуждений (CoT) и использует фреймворк Qwen-Agent с интеграцией MCP для выполнения кода или поиска документации 🧠.
Выходные данные: Проверяемая трассировка рассуждений с последующим готовым решением или патчем 📑.
⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍
Инфраструктура и управление API
API DashScope предоставляет регионализованные конечные точки, совместимые с OpenAI, с поддержкой кэширования контекста, что снижает затраты на повторяющиеся токены до 80% 📑.
- Омнимодальная ингестия: Qwen3-Omni (выпущен в сентябре 2025 года) обрабатывает текстовые, графические, аудио- и видеовходные данные с выводом аудио/текста через единую архитектуру кросс-модального внимания 📑.
- Развёртывание на границе: Оптимизирован для локального выполнения через SGLang (≥0.4.6) и vLLM (≥0.9.0) с поддержкой специализированного параметра
--reasoning-parser qwen3для чистого потокового вывода ответов 📑.
Рекомендации по оценке
Техническим экспертам следует проверить следующие архитектурные характеристики:
- Настройка бюджета мышления: Используйте
temperature=0.6иmin_p=0при работе в режиме Thinking Mode для максимизации качества рассуждений в соответствии со спецификациями официального файла generation_config.json 📑. - Влияние квантизации на MoE: Проведите аудит производительности квантизаций KTransformers или llama.cpp для модели объёмом 235B, так как логика маршрутизации экспертов чувствительна к точности битности 🧠.
- Логика удержания кэша: Запросите детали политик географического сохранения кэша (глобальные vs. американские конечные точки) для конфиденциальных корпоративных данных 🌑.
- Точность контекста YaRN на 1M токенов: Протестируйте извлечение «иголки в стоге сена» для моделей от 8B и выше при использовании расширения на 1M токенов перед промышленным развёртыванием 🧠.
История обновлений
Общий выпуск серии моделей Qwen3 (7B, 72B, 175B). Представление Qwen3.5, более усовершенствованной версии с улучшенными рассуждениями и соответствием требованиям безопасности.
Ранний доступ к Qwen3, с новой архитектурой и значительно увеличенным количеством параметров (до 175B). Демонстрирует передовые результаты в различных задачах.
Выпущен Qwen2.5-VL, основанный на Qwen2.5 с улучшенным пониманием изображений и мультимодальным взаимодействием. Улучшено распознавание деталей на изображениях.
Выпущен Qwen2.5, с улучшенным следованием инструкциям и разговорными способностями. Расширенная многоязычная поддержка, включая улучшенную производительность на европейских языках.
Выпущен Qwen2-VL, сочетающий языковую модель Qwen2 и возможности зрения. Улучшено мультимодальное рассуждение и генерация.
Выпущен Qwen2 с моделями на 7B и 72B параметров. Улучшены возможности рассуждения и кодирования. Повышена производительность на различных бенчмарках.
Представлен Qwen-VL, мультимодальная модель, сочетающая понимание языка и зрения. Поддерживает ввод и рассуждение на основе изображений.
Выпущен Qwen1.5, предлагающий модели с 0.5B, 1.5B, 4B, 7B и 14B параметрами. Улучшена производительность и эффективность. Поддержка большей длины контекста.
Первый релиз серии Qwen, представлен 7B параметровая модель. Сильные возможности в китайском и английском языках. Открытый исходный код.
Плюсы и минусы инструмента
Плюсы
- Отличное качество китайского
- Гибкое развертывание API
- Широкий выбор моделей
- Сильная поддержка английского
- Экономичные open-source модели
- Быстрое развитие
- Генерация контента
- Мультимодальность
Минусы
- Платное API
- Требования к ресурсам
- Развитие VL