Gemini
Integraciones
- Google AI Studio
- Vertex AI
- Google Antigravity
- Gemini CLI
- Android Studio
- Cursor
- Cline
- IDEs de JetBrains
- Gemini Code Assist
- Visual Studio Code
- NotebookLM
- Google Search API
- Firebase AI Logic
- LiteLLM
- Biblioteca de compatibilidad con OpenAI
Detalles de precios
- Nivel gratuito: Hasta 1.000 solicitudes diarias, 5-15 RPM según el modelo, 250.000 TPM.
- Nivel de pago: Gemini 2.5 Flash-Lite $0,10/$0,40 por millón de tokens; Gemini 3 Flash $0,50/$3,00; Gemini 3 Pro $2,00/$12,00 (≤200K contexto), $4,00/$18,00 (>200K contexto).
- La API por lotes ofrece un 50% de descuento.
- Caché de contexto: $0,20-$4,50 por millón de tokens de almacenamiento por hora.
- Fundamentación con Google Search: 1.500 consultas gratuitas diarias, luego $35 por cada 1.000 consultas, facturación activa desde el 5 de enero de 2026.
- Multiplicador de precios por contexto largo por encima de 200K tokens.
Características
- Arquitectura de mezcla dispersa de expertos con activación selectiva de parámetros
- Modulación dinámica del pensamiento mediante el parámetro thinking_level (mínimo, bajo, medio, alto)
- Procesamiento multimodal nativo para entradas de texto, imagen, vídeo y audio
- Ventana de contexto de hasta 1 millón de tokens con capacidad de salida de 64K
- Mecanismo de firma de pensamiento para coherencia en razonamiento multi-turno
- Validación estricta de invocación de funciones con respuestas multimodales
- API REST con soporte de streaming mediante eventos enviados por el servidor
- Parámetro de resolución de medios (baja, media, alta, ultra-alta) para procesamiento de visión
- Caché de contexto con precios de almacenamiento por hora
- Herramientas de fundamentación con Google Search y Context URL
- API por lotes con reducción de coste del 50%
- Ejecución de código y generación de salida estructurada
- Limitación de tasa a nivel de proyecto con cuotas escalonadas
- Interfaz de creación de prototipos sin coste en Google AI Studio
- Implementación empresarial en Vertex AI con opciones de SLA
- API en vivo con procesamiento nativo de audio a 25 tokens/segundo
- Gemini 3 Flash alcanza un 78% en SWE-bench Verified, superando a Gemini 3 Pro
- Velocidad de salida de 218 tokens por segundo para variantes Flash
Descripción
Evaluación Arquitectónica de Gemini
Gemini representa la plataforma consolidada de IA multimodal de Google, accesible a través de endpoints de API REST mediante Google AI Studio y Vertex AI. La arquitectura emplea un diseño de mezcla dispersa de expertos basado en transformers 🧠, donde los mecanismos de enrutamiento activan selectivamente subconjuntos de parámetros por cada inferencia. La generación Gemini 3 introdujo modulación dinámica del pensamiento, permitiendo ajustes en tiempo de ejecución de la profundidad de razonamiento según la complejidad de la tarea 📑.
Arquitectura de la Familia de Modelos
La familia de modelos de producción abarca múltiples niveles de capacidad. Gemini 3 Pro sirve como modelo insignia de razonamiento con una ventana de contexto de 1 millón de tokens y capacidad de salida de 64.000 tokens 📑. Gemini 3 Flash combina razonamiento de nivel Pro con latencia reducida mediante optimización arquitectónica 📑, alcanzando un 78% en SWE-bench Verified para tareas de codificación agentica 📑. La variante Flash procesa tareas 3 veces más rápido que Gemini 2.5 Pro, utilizando un 30% menos de tokens en promedio para salidas equivalentes 📑. Los recuentos internos de parámetros permanecen sin divulgar 🌑, aunque análisis industriales sugieren configuraciones ultra-dispersas con patrones de activación selectiva 🧠.
⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍
Marco de Procesamiento Multimodal
Gemini implementa una arquitectura multimodal nativa que procesa texto, imágenes, vídeo y audio a través de rutas de inferencia unificadas 📑. Los modelos de API en vivo procesan entrada de vídeo a 258 tokens por segundo y audio a 25 tokens por segundo tanto para entrada como para salida 📑. El parámetro media_resolution controla la asignación de tokens de procesamiento de visión en configuraciones baja, media, alta y ultra-alta 📑. Los algoritmos específicos de codificación y los mecanismos de compresión para la fusión multimodal no están públicamente especificados 🌑.
Mecanismo de Firma de Pensamiento
La generación Gemini 3 aplica validación de firma de pensamiento para flujos de trabajo de razonamiento multi-turno 📑. Las firmas representan representaciones cifradas del estado interno de razonamiento, transmitidas entre llamadas a la API para mantener coherencia a lo largo de los turnos conversacionales 📑. La invocación de funciones requiere validación estricta de firmas con errores 400 para firmas faltantes 📑. El esquema criptográfico y el formato de serialización del estado permanecen como propiedad intelectual 🌑. Los SDK oficiales gestionan automáticamente la administración de firmas 📑.
Arquitectura de Integración de API
- Endpoint REST: Acceso de producción mediante https://generativelanguage.googleapis.com/v1beta/models/ con autenticación mediante cabecera x-goog-api-key 📑. Protocolo de Streaming: Eventos enviados por el servidor a través del endpoint streamGenerateContent 📑.
- Gestión de Ventana de Contexto: Los modelos Gemini 3 soportan una ventana de contexto de entrada de 1 millón de tokens 📑. Gemini 2.5 Pro presenta una ventana de contexto de 1 millón de tokens con precios escalonados por encima de 200K tokens 📑. Implementación de Almacenamiento: Caché de contexto disponible con precios de almacenamiento por hora 📑. La capa de persistencia subyacente no está divulgada 🌑.
- Invocación de Funciones: Uso nativo de herramientas con respuestas de funciones multimodales que soportan imágenes y PDFs 📑. Mecanismo de Validación: Aplicación estricta en la generación Gemini 3 con circulación obligatoria de firma de pensamiento 📑.
- Herramientas de Fundamentación: Fundamentación con Google Search con 1.500 consultas gratuitas diarias en niveles de pago, luego $35 por cada 1.000 consultas 📑. La facturación comenzó el 5 de enero de 2026 para los modelos Gemini 3 📑. Herramienta de Contexto URL: Generalmente disponible para recuperación de contenido web 📑.
Patrones de Implementación
Google AI Studio proporciona una interfaz de creación de prototipos sin coste y sin facturación por tokens 📑. El uso de la API pasa a facturación basada en tokens a través de proyectos de Google Cloud 📑. La implementación en Vertex AI añade asignación de recursos computacionales, redes y características de cumplimiento para sistemas productivos 📑. La limitación de tasa aplica cuotas a nivel de proyecto 📑, que van desde 5-15 RPM en el nivel gratuito hasta 100-500 RPM en cuentas de pago de Nivel 1 según el modelo 📑. La topología de infraestructura y las estrategias de distribución geográfica no están documentadas 🌑.
Características de Rendimiento
Gemini 3 Flash alcanza un 90,4% en GPQA Diamond y un 81,2% en MMMU Pro 📑. La comprensión de vídeo llega al 86,9% en el benchmark Video-MMMU 📑. Gemini 3 Flash demuestra una mejora del 15% en precisión respecto a Gemini 2.5 Flash en tareas de extracción complejas 📑. La latencia de respuesta varía según el nivel del modelo y la configuración del nivel de pensamiento 📑. Las variantes Flash alcanzan aproximadamente 218 tokens por segundo en velocidad de salida 📑. Las técnicas internas de optimización para lograr las métricas de rendimiento reportadas permanecen sin divulgar 🌑.
Escenarios Operativos
- Flujos de Trabajo de Codificación Agentica: Gemini 3 Flash optimizado para tareas de desarrollo de alta frecuencia con una puntuación de 78% en SWE-bench Verified, superando el 76,2% de Gemini 3 Pro 📑. Limitación de Contexto: El precio por contexto largo se duplica por encima de 200K tokens para la mayoría de los modelos 📑.
- Aplicaciones de Análisis de Vídeo: Las capacidades nativas de procesamiento de vídeo permiten comprensión en tiempo real 📑. Coste de Tokens: El procesamiento de vídeo en API en vivo a 258 tokens por segundo impacta en casos de uso de alto volumen 📑.
- Sistemas de Extracción de Documentos: Mejoras demostradas en reconocimiento de escritura manual y análisis de documentos complejos 📑. Requisito de Validación: Las organizaciones deben verificar la precisión en terminología específica del dominio 🧠.
Transparencia del Modelo de Precios
Gemini implementa una estructura freemium con un nivel gratuito generoso que incluye hasta 1.000 solicitudes diarias 📑. Los precios de producción varían desde $0,10 por millón de tokens para Gemini 2.5 Flash-Lite hasta $2,00/$12,00 por millón de tokens de entrada/salida para Gemini 3 Pro Preview con contexto ≤200K 📑. Gemini 3 Flash tiene un precio de $0,50/$3,00 por millón de tokens 📑. El contexto que excede los 200K tokens incurre en un multiplicador de 2x en la mayoría de los modelos 📑. La API por lotes ofrece un descuento del 50% sobre las tarifas estándar 📑. Los ajustes de límite de tasa en diciembre de 2025 redujeron el RPM del nivel gratuito respecto a niveles anteriores 📑.
Directrices de Evaluación
Los evaluadores técnicos deben verificar el rendimiento del modelo en benchmarks específicos del dominio antes de la implementación en producción 🧠. Las organizaciones deben solicitar documentación arquitectónica detallada sobre los detalles de implementación de la mezcla dispersa de expertos y los mecanismos internos de optimización 🌑. Validar el rendimiento de la ventana de contexto bajo condiciones de carga productiva con volúmenes de datos representativos 🧠. Probar la gestión de firmas de pensamiento en escenarios de invocación de funciones multi-turno para confirmar requisitos de fiabilidad 📑. Realizar un análisis de costes que contemple los niveles de precios por longitud de contexto y los patrones de consumo de tokens 📑. Para implementaciones empresariales que requieran garantías de residencia de datos, verificar la disponibilidad regional de Vertex AI y las certificaciones de cumplimiento 🌑.
Historial de versiones
Hito final de 2025. Inteligencia de vanguardia con latencia mínima.
Arquitectura de nueva generación con razonamiento nativo y plataforma Antigravity.
Introducción del modo experimental 'Deep Think' y contexto de 2M+.
Generación multimodal nativa e inicio de la era agéntica.
Modelo de alta velocidad y baja latencia optimizado para volumen.
Ventana de contexto revolucionaria de 1 millón de tokens.
Lanzamiento inicial. 1.0 Pro integrado en Bard; 1.0 Ultra para tareas complejas; 1.0 Nano para dispositivos.
Ventajas y desventajas de la herramienta
Ventajas
- Rendimiento multilingüe
- Soporte de formatos diversos
- Texto coherente
- Generación de código avanzada
- Generación rápida de ideas
Desventajas
- Posible sesgo
- Inexactitudes ocasionales
- Altas exigencias computacionales