Segment Anything Model (SAM)
Integraciones
- PyTorch 2.5+
- TensorRT-LLM
- Core ML (v2026)
- ROS 2 Vision Stack
Detalles de precios
- Los pesos estándar son de código abierto.
- Las versiones empresariales con kernels optimizados para NPUs específicas (ej.
- Apple A19, Snapdragon G4) se licencian a través de Meta Partners.
Características
- Clasificación nativa de objetos semánticos
- Codificador jerárquico MobileViT-V4
- Banco de memoria predictivo (seguimiento de vídeo)
- Soporte para prompts negativos
- Síntesis en tiempo real de máscara a semántica
- Generalización multimodal zero-shot
Descripción
SAM 3: Revisión evolutiva de la arquitectura unificada de segmentación y malla semántica
El Segment Anything Model 3 (SAM 3) representa el pináculo actual de los modelos fundacionales de visión, evolucionando desde máscaras puramente geométricas hacia una segmentación semántica con conciencia de contexto 📑. La arquitectura de 2026 introduce el codificador Hierarchical MobileViT-V4, que cierra la brecha entre el rendimiento masivo de ViT-H y la eficiencia en dispositivos edge, permitiendo la generación de embeddings en tiempo real en hardware NPU/TPU moderno 🧠.
Componentes arquitectónicos principales y malla semántica
La innovación central de SAM 3 es la integración de un decodificador semántico multi-cabezal, que predice simultáneamente la geometría y la categoría del objeto.
- Codificador MobileViT-V4: Un backbone híbrido CNN-Transformer optimizado para los primitivos computacionales de 2026. Ofrece un aumento de rendimiento (throughput) de 2,5x respecto a ViT-L de SAM 2, manteniendo los niveles de mIoU 📑.
- Mediador Prompt-a-Etiqueta: Procesa prompts dispersos (clics, cuadros, texto) y los mapea en un espacio latente unificado. Detalle técnico: El sistema ahora admite 'Prompts Negativos' para excluir explícitamente el ruido de fondo en escenas médicas o industriales complejas 📑.
- Decodificador de máscaras semánticas: Incluye una cabeza MLP integrada que clasifica la región enmascarada según la taxonomía COCO/LVIS de forma nativa durante el paso de decodificación 📑.
⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍
Flujo operativo y escenarios de datos
La arquitectura está optimizada para razonamiento visual de alta frecuencia y reconocimiento de objetos de cola larga.
- Categorización dinámica de objetos: Entrada: Fotograma 4K sin procesar + cuadro delimitador → Proceso: Extracción jerárquica de características y activación de la cabeza semántica → Salida: Máscara de precisión por píxel con etiquetas semánticas localizadas (ej. 'Aislante/Daño') 📑.
- Flujo de vídeo espacio-temporal: Entrada: Secuencia de vídeo a 60 fps + prompt inicial → Proceso: Actualizaciones del banco de memoria recurrente con compensación de oclusión basada en flujo → Salida: Máscaras de segmentación con persistencia de ID en más de 1000 fotogramas con corrección de deriva inferior a 10 ms 📑.
Gestión de memoria y consistencia temporal
SAM 3 refina el mecanismo de banco de memoria para manejar oclusiones extremas y desenfoque por movimiento mediante una capa predictiva de estado de flujo.
- Banco de memoria predictivo: Almacena embeddings temporales de una ventana deslizante de fotogramas. Brecha de transparencia: El peso exacto del mecanismo de atención para la recuperación de oclusiones a largo plazo (10s+) es propietario 🌑.
- Integración de 3D Splatting: Las afirmaciones sobre reconstrucción 3D nativa a partir de prompts de punto único no están verificadas; el sistema requiere envoltorios de geometría multivista externos para garantizar consistencia espacial ⌛.
Guía de evaluación
Los evaluadores técnicos deben verificar las siguientes características arquitectónicas en la implementación de SAM 3:
- Escalabilidad de VRAM del backbone: Evaluar la huella de memoria de MobileViT-V4 frente a los límites de SoC/GPU objetivo, especialmente durante la generación de embeddings por lotes [Unknown].
- Precisión en la cola semántica: Las organizaciones deben validar la precisión de la cabeza semántica en conjuntos de datos no estándar (ej. defectos industriales raros), ya que los pesos base priorizan la taxonomía de propósito general [Inferencia].
- Acumulación de error temporal: Someter a prueba de estrés la latencia de recuperación del banco de memoria tras 5+ segundos de oclusión total del objeto en entornos dinámicos [Unknown].
Historial de versiones
Actualización de fin de año: máscaras ricas en metadatos semánticos para agentes de IA.
Ampliación a nubes de puntos 3D e integración con ROS 2 para robótica.
Introducción de SAM 3 con capacidades de segmentación 3D de alta fidelidad.
Mejora en la consistencia temporal de SAM 2.1 para manejar oclusiones prolongadas.
Lanzamiento oficial de SAM 2. Modelo unificado para segmentación en tiempo real en imágenes y videos.
Lanzamiento de MobileSAM, 60 veces más rápido para dispositivos móviles.
Lanzamiento inicial de Meta AI. Introducción del conjunto de datos SA-1B y el modelo fundacional SAM.
Ventajas y desventajas de la herramienta
Ventajas
- Segmentación en un clic
- Aprendizaje sin supervisión
- Alta adaptabilidad
- Comprensión rápida
- Versátiles conjuntos de datos
- Fácil integración
- Aislamiento potente
- Menos esfuerzo manual
Desventajas
- Altos requisitos de GPU
- Inexactitudes en la segmentación
- Contexto limitado