Microsoft расширяет ИИ-семейство Phi-3 новой моделью Phi-3-vision с поддержкой изображений

Опубликовано: 21.05.2025 11:30

Редмонд, США, 21 мая 2025 года – В рамках конференции Build 2025 корпорация Microsoft представила значительное пополнение в своем семействе малых языковых моделей (SLM) Phi-3 – новую мультимодальную модель Phi-3-vision. Этот анонс подчеркивает стремление компании сделать мощные возможности искусственного интеллекта более доступными и эффективными для широкого круга задач, включая те, что требуют анализа визуальной информации.

Phi-3-vision сохраняет компактность и эффективность предыдущих моделей Phi-3, но при этом обладает способностью понимать и интерпретировать как текстовые, так и визуальные данные. Модель может анализировать изображения, отвечать на вопросы о них, генерировать текстовые описания и выполнять другие задачи, требующие совместной обработки текста и картинок. Например, Phi-3-vision может быть использована для извлечения информации из диаграмм и графиков, создания подписей к изображениям или даже для помощи в навигации роботам на основе визуального окружения. Размер модели составляет 4.2 миллиарда параметров, что делает ее достаточно легковесной для развертывания на различных устройствах, включая мобильные платформы и ПК с ограниченными ресурсами, без значительной потери производительности для своего класса.

Microsoft позиционирует Phi-3-vision как оптимальное решение для разработчиков, которым необходимы быстрые и экономичные ИИ-модели с мультимодальными возможностями. Компания подчеркивает, что Phi-3-vision была обучена на высококачественных отфильтрованных данных, чтобы обеспечить надежность и снизить риски генерации нежелательного контента. Модель будет доступна через каталог моделей в Azure AI Studio, что упростит ее интеграцию в различные приложения и сервисы. Этот шаг является частью более широкой стратегии Microsoft по демократизации ИИ и предоставлению разработчикам гибких инструментов для создания нового поколения интеллектуальных приложений.

Анонс Phi-3-vision последовал за недавним выпуском текстовых моделей Phi-3-mini, Phi-3-small и Phi-3-medium, которые уже привлекли внимание своей производительностью при относительно небольшом размере. Добавление визуальных возможностей значительно расширяет потенциальные сценарии использования семейства Phi-3, открывая двери для инноваций в таких областях, как образование, доступность, розничная торговля и многих других, где сочетание текстового и визуального понимания ИИ может принести ощутимую пользу.

« Назад к списку новостей