Иконка инструмента

Qwen

4.1 (11 голосов)
Qwen

Теги

Open-Source-LLM Mixture-of-Experts Thinking-Mode Multilingual-AI Agent-Framework

Интеграции

  • DashScope API
  • vLLM / SGLang
  • Ollama / llama.cpp
  • Hugging Face
  • ModelScope
  • Qwen-Agent (MCP)

Детали цены

  • Модели с открытым исходным кодом под лицензией Apache 2.0.
  • API DashScope: Qwen3-Max начинается от $1,20 за миллион входных токенов.
  • Кэширование контекста (чтение из кэша) предоставляет скидку ~80% ($0,24 за миллион).
  • Пакетный API обеспечивает скидку 50%.

Возможности

  • Семейство Dense Transformer (от 0,6B до 32B) под лицензией Apache 2.0
  • Разреженные MoE: Qwen3-Max (1T+), 235B-A22B, 30B-A3B
  • Режим Unified Thinking (CoT в контексте)
  • Окно контекста 128K–1M через YaRN
  • Многоязычный корпус объёмом 36 триллионов токенов (119 языков)
  • API, совместимый с OpenAI, с кэшированием контекста
  • Нативная поддержка MCP и фреймворк Qwen-Agent
  • Qwen3-Omni и мультимодальные возможности VL

Описание

Qwen: Двухархитектурный аудит и унифицированное мышление

По состоянию на январь 2026 года Qwen3 превратился в мультимодальную платформу. Архитектура охватывает от мобильных моделей Dense объёмом 0,6B до кластеров MoE с триллионом параметров (Qwen3-Max). Экосистема определяется режимом Unified Thinking, который использует специальные токены (<think> ID: 151667) для внутреннего рассуждения перед генерацией окончательных ответов 📑.

Оркестрация моделей и гибридное мышление

Архитектура 2026 года устраняет необходимость в специализированных клонах для рассуждений. Одна модель управляет как «быстрым», так и «медленным» мышлением через параметры времени выполнения, оптимизируя распределение вычислительных ресурсов в зависимости от сложности задачи 📑.

  • Специализация экспертов: Qwen3-235B-A22B использует 128 экспертов с нулевыми накладными расходами на общих экспертов, обеспечивая превосходную производительность в STEM (92,3% на AIME'25) при сохранении скорости инференса модели объёмом 22B 📑.
  • Операционный сценарий: Многоэтапное рассуждение и использование инструментов:
    Входные данные: Сложное математическое доказательство или отчёт об ошибке в кодовой базе 📑.
    Процесс: Модель активирует режим «Thinking Mode» через /think, выполняет длинную цепочку рассуждений (CoT) и использует фреймворк Qwen-Agent с интеграцией MCP для выполнения кода или поиска документации 🧠.
    Выходные данные: Проверяемая трассировка рассуждений с последующим готовым решением или патчем 📑.

⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍

Инфраструктура и управление API

API DashScope предоставляет регионализованные конечные точки, совместимые с OpenAI, с поддержкой кэширования контекста, что снижает затраты на повторяющиеся токены до 80% 📑.

  • Омнимодальная ингестия: Qwen3-Omni (выпущен в сентябре 2025 года) обрабатывает текстовые, графические, аудио- и видеовходные данные с выводом аудио/текста через единую архитектуру кросс-модального внимания 📑.
  • Развёртывание на границе: Оптимизирован для локального выполнения через SGLang (≥0.4.6) и vLLM (≥0.9.0) с поддержкой специализированного параметра --reasoning-parser qwen3 для чистого потокового вывода ответов 📑.

Рекомендации по оценке

Техническим экспертам следует проверить следующие архитектурные характеристики:

  • Настройка бюджета мышления: Используйте temperature=0.6 и min_p=0 при работе в режиме Thinking Mode для максимизации качества рассуждений в соответствии со спецификациями официального файла generation_config.json 📑.
  • Влияние квантизации на MoE: Проведите аудит производительности квантизаций KTransformers или llama.cpp для модели объёмом 235B, так как логика маршрутизации экспертов чувствительна к точности битности 🧠.
  • Логика удержания кэша: Запросите детали политик географического сохранения кэша (глобальные vs. американские конечные точки) для конфиденциальных корпоративных данных 🌑.
  • Точность контекста YaRN на 1M токенов: Протестируйте извлечение «иголки в стоге сена» для моделей от 8B и выше при использовании расширения на 1M токенов перед промышленным развёртыванием 🧠.

История обновлений

Qwen3 (General Release) 2025-08

Общий выпуск серии моделей Qwen3 (7B, 72B, 175B). Представление Qwen3.5, более усовершенствованной версии с улучшенными рассуждениями и соответствием требованиям безопасности.

Qwen3 (Early Access) 2025-02

Ранний доступ к Qwen3, с новой архитектурой и значительно увеличенным количеством параметров (до 175B). Демонстрирует передовые результаты в различных задачах.

Qwen2.5-VL 2024-10

Выпущен Qwen2.5-VL, основанный на Qwen2.5 с улучшенным пониманием изображений и мультимодальным взаимодействием. Улучшено распознавание деталей на изображениях.

Qwen2.5 2024-09

Выпущен Qwen2.5, с улучшенным следованием инструкциям и разговорными способностями. Расширенная многоязычная поддержка, включая улучшенную производительность на европейских языках.

Qwen2-VL 2024-05

Выпущен Qwen2-VL, сочетающий языковую модель Qwen2 и возможности зрения. Улучшено мультимодальное рассуждение и генерация.

Qwen2 2024-04

Выпущен Qwen2 с моделями на 7B и 72B параметров. Улучшены возможности рассуждения и кодирования. Повышена производительность на различных бенчмарках.

Qwen-VL 1.0 2023-12

Представлен Qwen-VL, мультимодальная модель, сочетающая понимание языка и зрения. Поддерживает ввод и рассуждение на основе изображений.

Qwen 1.5 2023-11

Выпущен Qwen1.5, предлагающий модели с 0.5B, 1.5B, 4B, 7B и 14B параметрами. Улучшена производительность и эффективность. Поддержка большей длины контекста.

Qwen 1.0 2023-08

Первый релиз серии Qwen, представлен 7B параметровая модель. Сильные возможности в китайском и английском языках. Открытый исходный код.

Плюсы и минусы инструмента

Плюсы

  • Отличное качество китайского
  • Гибкое развертывание API
  • Широкий выбор моделей
  • Сильная поддержка английского
  • Экономичные open-source модели
  • Быстрое развитие
  • Генерация контента
  • Мультимодальность

Минусы

  • Платное API
  • Требования к ресурсам
  • Развитие VL
Chat