Amazon Rekognition Video
Integraciones
- Amazon Bedrock (Nova Reel)
- Amazon Kinesis Video Streams
- AWS Agents
- AWS Step Functions
- Amazon S3 (Índice Vectorial-Espacial)
Detalles de precios
- El precio se basa en los minutos de vídeo analizados (almacenado) y tarifas por flujo mensual para streaming.
- La orquestación multiagente y la búsqueda semántica basada en Nova incurren en costes adicionales de créditos.
Características
- Análisis Multimodal Amazon Nova Reel
- Estimación de Vértices y Profundidad 3D
- Lógica de Visión Agentica y Activadores de Step Functions
- Búsqueda de Vídeo en Lenguaje Natural (basada en LMM)
- Seguimiento Temporal de Personas y Trayectorias
- Inferencia en Tiempo Real Optimizada para Inferentia 3
Reseñas en video
Descripción
Amazon Rekognition Video: Inteligencia Espacio-Temporal Multimodal y Auditoría Nova Reel (2026)
A partir de enero de 2026, Amazon Rekognition Video ha evolucionado hacia un Orquestador de Visión con Estado. La arquitectura del sistema se centra en Amazon Nova Reel, proporcionando una capa de razonamiento que transforma los datos brutos de píxeles en secuencias de eventos semánticos, permitiendo la automatización en bucle cerrado mediante flujos de trabajo agenticos nativos de AWS 📑.
Orquestación Neural y Anclaje Multimodal de Vídeo
El núcleo del pipeline de procesamiento ejecuta extracción de características a nivel de fotograma y correlación temporal entre fotogramas de forma simultánea, optimizado para hardware Inferentia 3 📑.
- Escenario de Seguridad Autónoma: Entrada: Flujo RTSP 4K a través de Kinesis Video Streams → Proceso: Detección de anomalías temporales de Nova Reel (ej. acceso no autorizado mediante rutas complejas) → Salida: Activación de bloqueo en tiempo real mediante AWS Step Functions 📑.
- Escenario de Logística Inteligente: Entrada: Alimentación de CCTV de almacén → Proceso: Razonamiento espacial 3D para análisis volumétrico y predicción de cuellos de botella → Salida: Alertas automatizadas de reasignación de personal en AWS Agent Builder 📑.
- Búsqueda Semántica de Vídeo: Utiliza indexación basada en LMM para permitir consultas en lenguaje natural (ej. "Muéstrame cuándo llegó el camión azul pero no descargó") con recuperación en menos de un segundo desde lagos de datos S3 📑.
⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍
Infraestructura, Privacidad y Soberanía
La arquitectura desacopla estrictamente el plano de ingesta de medios del plano de inferencia. Todos los metadatos se generan en entornos aislados dentro de VPC, soportando modos 'Zero-Retention' para sectores de alto cumplimiento 🧠.
- Mapeo Espacial 3D: Devuelve cajas delimitadoras 3D normalizadas y vectores de estimación de profundidad monocular para más de 5.000 categorías de objetos, utilizando motores neuronales con conciencia de perspectiva 📑.
- Protocolos de Aislamiento de Datos: Aunque AWS afirma el enmascaramiento de PII durante la ingesta de vídeo, los pesos neuronales específicos utilizados para la validación 'Safe-to-Process' permanecen sin revelar 🌑.
Guía de Evaluación
Los evaluadores técnicos deben verificar las siguientes características arquitectónicas:
- Latencia de Activación Agentica: Medir el tiempo total de ida y vuelta (RTT) desde un evento visual en un flujo Kinesis hasta el inicio de un playbook de AWS Agent [Documentado].
- Precisión en el Eje Z (Profundidad): Validar la exactitud de la estimación espacial 3D bajo condiciones variables de iluminación y distorsiones de lente, ya que la profundidad monocular es altamente sensible a la calibración de la cámara [Unknown].
- Deriva en Búsqueda Semántica: Evaluar la consistencia de las interpretaciones en lenguaje natural de Nova Reel en diversos contextos étnicos y culturales para garantizar la mitigación de sesgos [Inference].
Historial de versiones
Actualización de fin de año: integración con AWS Agents para disparar acciones autónomas.
Introducción de razonamiento espacial 3D. Estimación de profundidad y distancia en video 2D.
Integración con LMM. Búsqueda en lenguaje natural en bibliotecas de video masivas.
Actualización mayor del motor de moderación. Detección mejorada de discursos de odio y símbolos.
Disponibilidad general de Streaming Video Events para hogares conectados.
Introducción de detección de segmentos de video. Identifica marcos negros y créditos finales.
Lanzamiento oficial. Funciones clave: reconocimiento facial en tiempo real, seguimiento de personas y detección de actividades.
Ventajas y desventajas de la herramienta
Ventajas
- Potente detección de objetos
- Precisa detección facial
- Informes de actividad
- Procesamiento escalable
- Moderación automatizada
Desventajas
- Costoso a gran escala
- Precisión afectada por la iluminación
- Requiere integración con AWS