Databricks
Integraciones
- Apache Spark (OSS)
- Delta Lake (OSS)
- MLflow (OSS)
- Snowflake (Mirroring)
- Databricks Asset Bundles (CI/CD)
- Power BI / Tableau
Detalles de precios
- Facturado según las Unidades de Databricks (DBUs) consumidas.
- El cómputo serverless, el entrenamiento de modelos de Mosaic AI y la búsqueda vectorial se facturan como unidades de consumo independientes.
Características
- Gobernanza Unificada con Unity Catalog (OSS)
- Motor de Consultas Vectorizado Photon (C++)
- Marco de Agentes Mosaic AI y Agent Bricks
- Lakeflow Declarative Pipelines
- Asistente de Databricks y DatabricksIQ
- Cargas de Trabajo SQL y de IA Serverless
Descripción
Revisión de la Infraestructura de Inteligencia de Datos de Databricks
El entorno de Databricks 2026 funciona como una Plataforma de Inteligencia de Datos, utilizando DatabricksIQ para integrar IA en cada capa del lago de datos. La arquitectura se centra en Unity Catalog, que ha evolucionado hacia un estándar de código abierto para gobernar tablas, archivos, modelos de ML y agentes de IA autónomos 📑.
Procesamiento Central y Ejecución Vectorizada
La plataforma emplea el motor Photon, una capa de ejecución vectorizada nativa en C++, para evitar los cuellos de botella de rendimiento del JVM en cargas de trabajo analíticas.
- Lakeflow Declarative Pipelines: Entrada: Fuentes de datos por lotes y en streaming → Proceso: Orquestación autónoma y actualización incremental mediante lógica de Delta Live Tables → Salida: Tablas medallion Silver/Gold optimizadas con linaje completo 📑.
- Motor Photon: Ofrece hasta 8 veces más velocidad en joins y agregaciones complejas mediante paralelismo a nivel de hardware y UDF vectorizadas 📑.
- Almacenes SQL Serverless: Escala automáticamente el cómputo según patrones de carga de trabajo; no obstante, las heurísticas predictivas internas para minimizar la latencia de arranque en frío de los entornos serverless permanecen sin revelar 🌑.
⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍
Mosaic AI y Orquestación Agentica
La pila de 2026 incluye Mosaic AI y el conjunto Agent Bricks para construir y gobernar agentes autónomos basados en datos empresariales.
- Marco de Agentes Mosaic AI: Entrada: Intención empresarial de alto nivel → Proceso: Orquestación agentica RAG basada en metadatos de Unity Catalog y herramientas de recuperación mediante búsqueda vectorial → Salida: Información verificable con razonamiento multi-paso y citas de fuentes 📑.
- Agent Bricks (Auto-Optimización): Optimiza automáticamente la calidad y el coste de los agentes seleccionando las mejores combinaciones de modelos y herramientas para patrones específicos de resolución de tareas 📑.
Gobernanza e Interoperabilidad Abierta
Unity Catalog (OSS) actúa como plano de control universal, garantizando que los activos de datos e IA sean accesibles en diferentes motores y nubes.
- Federación Lakehouse: Permite el pushdown de consultas a sistemas externos (Snowflake, BigQuery, Oracle) sin movimiento de datos; sin embargo, los costes de egreso multicloud y los retrasos de sincronización no están cuantificados públicamente 🌑.
- Objetos de Datos Universales: Soporta formatos Delta, Iceberg y Hudi de forma nativa a través de la API REST de Unity Catalog, asegurando interoperabilidad sin copia 📑.
Directrices de Evaluación
Los evaluadores técnicos deben verificar las siguientes características arquitectónicas:
- Latencia de Negociación A2A: Medir la sobrecarga del handshake cuando los agentes de Databricks colaboran con ecosistemas de agentes externos (ej. Salesforce Agentforce) mediante el protocolo A2A 🌑.
- ROI de DBU de Photon: Las organizaciones deben validar que la tarifa premium de 2x en DBU para clústeres con Photon se compensa con al menos una reducción de 3x en el tiempo de ejecución para su cartera específica de cargas de trabajo 🧠.
- Latencia de Sincronización de Unity Catalog: Verificar la consistencia y el retraso en la propagación de políticas de acceso de granularidad fina en implementaciones multirregión de espacios de trabajo 🌑.
Historial de versiones
Actualización de fin de año: Lanzamiento del centro de inteligencia de datos agéntica.
Lanzamiento de funciones de IA en SQL para análisis y clasificación.
Lanzamiento de DBRX tras la integración de MosaicML.
Disponibilidad general de Unity Catalog para gobernanza unificada.
Presentación oficial del paradigma 'Lakehouse'.
Introducción de Delta Lake y MLflow para la gestión del ciclo de vida de datos y ML.
Lanzamiento de Unified Analytics Platform para unir ingeniería de datos y ciencia de datos.
Fundada por los creadores de Apache Spark. Enfoque inicial en procesamiento de datos a gran escala.
Ventajas y desventajas de la herramienta
Ventajas
- Procesamiento escalable
- Plataforma unificada
- Colaboración en equipo
- Integración MLflow
- Rendimiento Delta Lake
Desventajas
- Configuración compleja
- Posibles costes
- Dependencia del proveedor