Главная > Категории > Компьютерное зрение > Сегментация изображений > Segment Anything Model (SAM)

Segment Anything Model (SAM)

Похожие Преимущества / Недостатки

Категории:
Компьютерное зрение Машинное обучение и нейросети
Создатель Meta AI
Дата 2023-04-05
Платформы Various
Статус Active (Development)
Сайт segment-anything.com
Цена Бесплатно
Разделы:
Фреймворки DL Анализ изображений Сегментация изображений Анализ видео

Детали цены

Стандартные веса доступны как открытый исходный код.
Корпоративные версии с оптимизированными ядрами для конкретных NPU (например, Apple A19, Snapdragon G4) лицензируются через партнёров Meta.

Возможности

Собственная семантическая классификация объектов
Иерархический энкодер MobileViT-V4
Предиктивный банк памяти (видеотрекинг)
Поддержка негативных промптов
Синтез масок в семантику в реальном времени
Нулевая мультимодальная генерализация

Описание

SAM 3: Эволюционный обзор унифицированной архитектуры сегментации и семантической сетки

Модель Segment Anything Model 3 (SAM 3) является вершиной развития базовых моделей компьютерного зрения, переходя от чисто геометрических масок к контекстно-зависимой семантической сегментации 📑. Архитектура 2026 года внедряет Hierarchical MobileViT-V4 энкодер, который устраняет разрыв между производительностью ViT-H и эффективностью на уровне периферийных устройств, обеспечивая генерацию эмбеддингов в реальном времени на современном NPU/TPU оборудовании 🧠.

Основные архитектурные компоненты и семантическая сетка

Ключевое новшество SAM 3 — интеграция мультиголовочного семантического декодера, который одновременно предсказывает геометрию и категорию объекта.

MobileViT-V4 Encoder: Гибридный CNN-Transformer бэкбон, оптимизированный для вычислительных примитивов 2026 года. Обеспечивает 2,5-кратное увеличение пропускной способности по сравнению с ViT-L в SAM 2 при сохранении уровня mIoU 📑.
Prompt-to-Label Mediator: Обрабатывает разреженные промпты (клики, рамки, текст) и отображает их в единое латентное пространство. Техническая деталь: Система теперь поддерживает 'Негативные промпты' для явного исключения фонового шума в сложных медицинских или промышленных сценах 📑.
Semantic Mask Decoder: Включает встроенный MLP-головной модуль, который классифицирует маскированную область в соответствии с таксономией COCO/LVIS непосредственно в процессе декодирования 📑.

⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍

Операционный поток и сценарии данных

Архитектура оптимизирована для высокочастотного визуального анализа и распознавания редких объектов.

Динамическая категоризация объектов: Вход: Исходный 4K-кадр + ограничивающая рамка → Процесс: Иерархическое извлечение признаков и активация семантического головного модуля → Выход: Идеальная по пикселям маска с локализованными семантическими метками (например, 'Изолятор/Повреждение') 📑.
Пространственно-временной поток видео: Вход: Видеопоток 60 fps + начальный промпт → Процесс: Обновление рекуррентного банка памяти с компенсацией окклюзий на основе потока → Выход: Сегментационные маски с сохранением идентификаторов на протяжении 1000+ кадров с коррекцией дрейфа менее 10 мс 📑.

Управление памятью и временная согласованность

SAM 3 усовершенствует механизм банка памяти для обработки экстремальных окклюзий и размытости движения с помощью предиктивного слоя потокового состояния.

Предиктивный банк памяти: Хранит временные эмбеддинги из скользящего окна кадров. Пробел в прозрачности: Точный механизм взвешивания внимания для восстановления после длительных (10+ секунд) окклюзий является проприетарным 🌑.
Интеграция 3D-сплаттинга: Утверждения о возможности нативной 3D-реконструкции по однопунктовым промптам на данный момент не подтверждены; система требует внешних обёрток для многовидовой геометрии для обеспечения пространственной согласованности ⌛.

История обновлений

Agentic Vision Update 2025-11

Итоговое обновление года: маски с расширенными метаданными. SAM теперь выдает семантические свойства (текстура, примерная масса) для ИИ-агентов.

SAM 3.1 (Point Cloud & Robotics) 2025-05

Расширение до 3D-облаков точек. Интеграция с ROS 2 для автономных манипуляций с объектами в реальном времени и обхода препятствий.

SAM 3.0 (Spatial Intelligence) 2025-01

Внедрение SAM 3. Возможности высокоточного 3D-сегментирования. Модель теперь может сегментировать объекты на стереопарах и данных многовидовых съемок.

SAM 2.1 (Long-term Memory) 2024-11

Улучшена временная согласованность. Расширено управление памятью для обработки длительных перекрытий, когда объекты исчезают и снова появляются в видео.

SAM 2 (Unified Video/Image) 2024-07

Официальный релиз SAM 2. Унифицированная архитектура для сегментации объектов в реальном времени на изображениях и видео с использованием механизма памяти.

MobileSAM 2023-06

Оптимизация сообществом. Внедрение облегченной версии с использованием метода дистилляции, что сделало SAM в 60 раз быстрее для мобильных устройств.

SAM v1.0 Launch 2023-04

Первоначальный запуск Meta AI. Представлен датасет SA-1B (11 млн изображений, 1 млрд масок) и фундаментальная модель для сегментации изображений с нулевым обучением.

Плюсы и минусы инструмента

Плюсы

Сегментация в один клик
Обучение без учителя
Высокая адаптивность
Быстрое понимание изображений
Универсальные наборы данных
Простая интеграция
Мощная изоляция
Экономия труда

Минусы

Высокие требования к GPU
Неточности сегментации
Ограниченное понимание контекста

Segment Anything Model (SAM)

Теги

Интеграции

Детали цены

Возможности

Описание

SAM 3: Эволюционный обзор унифицированной архитектуры сегментации и семантической сетки

Основные архитектурные компоненты и семантическая сетка

Операционный поток и сценарии данных

Управление памятью и временная согласованность

Рекомендации по оценке

История обновлений

Плюсы и минусы инструмента

Плюсы

Минусы

Segment Anything Model (SAM)

Теги

Интеграции

Детали цены

Возможности

Описание

SAM 3: Эволюционный обзор унифицированной архитектуры сегментации и семантической сетки

Основные архитектурные компоненты и семантическая сетка

Операционный поток и сценарии данных

Управление памятью и временная согласованность

Рекомендации по оценке

История обновлений

Плюсы и минусы инструмента

Плюсы

Минусы

Похожие инструменты, которые могут быть полезны

YOLO (You Only Look Once)

SSD (Single Shot MultiBox Detector)

DeepLab

Amazon Rekognition Video

Google Cloud Video Intelligence API

Clarifai

Сообщить об ошибке