Inicio > Categorías > Procesamiento de Lenguaje Natural > Resumen > Gemini

Gemini

Etiquetas

IA multimodal Mezcla de expertos API REST Precios basados en tokens Ventana de contexto Invocación de funciones Procesamiento de vídeo Generación de código API de streaming Herramientas de fundamentación

Integraciones

Google AI Studio
Vertex AI
Google Antigravity
Gemini CLI
Android Studio
Cursor
Cline
IDEs de JetBrains
Gemini Code Assist
Visual Studio Code
NotebookLM
Google Search API
Firebase AI Logic
LiteLLM
Biblioteca de compatibilidad con OpenAI

Categorías:
Visión por Computadora IA Generativa Procesamiento de Lenguaje Natural Asistentes Personales de IA Desarrollo de Software
Creador Google
Fecha 2023-12-06
Plataformas Web, API, Mobile Apps
Estado Activo
Sitio web gemini.google.com
Modelo de precios Freemium
Secciones:
Chatbots e IA Conversacional Generación de Código Análisis de Imágenes Resumen Asistentes de Texto Generación de Texto

Detalles de precios

Nivel gratuito: Hasta 1.000 solicitudes diarias, 5-15 RPM según el modelo, 250.000 TPM.
Nivel de pago: Gemini 2.5 Flash-Lite $0,10/$0,40 por millón de tokens; Gemini 3 Flash $0,50/$3,00; Gemini 3 Pro $2,00/$12,00 (≤200K contexto), $4,00/$18,00 (>200K contexto).
La API por lotes ofrece un 50% de descuento.
Caché de contexto: $0,20-$4,50 por millón de tokens de almacenamiento por hora.
Fundamentación con Google Search: 1.500 consultas gratuitas diarias, luego $35 por cada 1.000 consultas, facturación activa desde el 5 de enero de 2026.
Multiplicador de precios por contexto largo por encima de 200K tokens.

Características

Arquitectura de mezcla dispersa de expertos con activación selectiva de parámetros
Modulación dinámica del pensamiento mediante el parámetro thinking_level (mínimo, bajo, medio, alto)
Procesamiento multimodal nativo para entradas de texto, imagen, vídeo y audio
Ventana de contexto de hasta 1 millón de tokens con capacidad de salida de 64K
Mecanismo de firma de pensamiento para coherencia en razonamiento multi-turno
Validación estricta de invocación de funciones con respuestas multimodales
API REST con soporte de streaming mediante eventos enviados por el servidor
Parámetro de resolución de medios (baja, media, alta, ultra-alta) para procesamiento de visión
Caché de contexto con precios de almacenamiento por hora
Herramientas de fundamentación con Google Search y Context URL
API por lotes con reducción de coste del 50%
Ejecución de código y generación de salida estructurada
Limitación de tasa a nivel de proyecto con cuotas escalonadas
Interfaz de creación de prototipos sin coste en Google AI Studio
Implementación empresarial en Vertex AI con opciones de SLA
API en vivo con procesamiento nativo de audio a 25 tokens/segundo
Gemini 3 Flash alcanza un 78% en SWE-bench Verified, superando a Gemini 3 Pro
Velocidad de salida de 218 tokens por segundo para variantes Flash

Descripción

Evaluación Arquitectónica de Gemini

Gemini representa la plataforma consolidada de IA multimodal de Google, accesible a través de endpoints de API REST mediante Google AI Studio y Vertex AI. La arquitectura emplea un diseño de mezcla dispersa de expertos basado en transformers 🧠, donde los mecanismos de enrutamiento activan selectivamente subconjuntos de parámetros por cada inferencia. La generación Gemini 3 introdujo modulación dinámica del pensamiento, permitiendo ajustes en tiempo de ejecución de la profundidad de razonamiento según la complejidad de la tarea 📑.

Arquitectura de la Familia de Modelos

La familia de modelos de producción abarca múltiples niveles de capacidad. Gemini 3 Pro sirve como modelo insignia de razonamiento con una ventana de contexto de 1 millón de tokens y capacidad de salida de 64.000 tokens 📑. Gemini 3 Flash combina razonamiento de nivel Pro con latencia reducida mediante optimización arquitectónica 📑, alcanzando un 78% en SWE-bench Verified para tareas de codificación agentica 📑. La variante Flash procesa tareas 3 veces más rápido que Gemini 2.5 Pro, utilizando un 30% menos de tokens en promedio para salidas equivalentes 📑. Los recuentos internos de parámetros permanecen sin divulgar 🌑, aunque análisis industriales sugieren configuraciones ultra-dispersas con patrones de activación selectiva 🧠.

⠠⠉⠗⠑⠁⠞⠑⠙⠀⠃⠽⠀⠠⠁⠊⠞⠕⠉⠕⠗⠑⠲⠉⠕⠍

Marco de Procesamiento Multimodal

Gemini implementa una arquitectura multimodal nativa que procesa texto, imágenes, vídeo y audio a través de rutas de inferencia unificadas 📑. Los modelos de API en vivo procesan entrada de vídeo a 258 tokens por segundo y audio a 25 tokens por segundo tanto para entrada como para salida 📑. El parámetro media_resolution controla la asignación de tokens de procesamiento de visión en configuraciones baja, media, alta y ultra-alta 📑. Los algoritmos específicos de codificación y los mecanismos de compresión para la fusión multimodal no están públicamente especificados 🌑.

Mecanismo de Firma de Pensamiento

La generación Gemini 3 aplica validación de firma de pensamiento para flujos de trabajo de razonamiento multi-turno 📑. Las firmas representan representaciones cifradas del estado interno de razonamiento, transmitidas entre llamadas a la API para mantener coherencia a lo largo de los turnos conversacionales 📑. La invocación de funciones requiere validación estricta de firmas con errores 400 para firmas faltantes 📑. El esquema criptográfico y el formato de serialización del estado permanecen como propiedad intelectual 🌑. Los SDK oficiales gestionan automáticamente la administración de firmas 📑.

Arquitectura de Integración de API

Endpoint REST: Acceso de producción mediante https://generativelanguage.googleapis.com/v1beta/models/ con autenticación mediante cabecera x-goog-api-key 📑. Protocolo de Streaming: Eventos enviados por el servidor a través del endpoint streamGenerateContent 📑.
Gestión de Ventana de Contexto: Los modelos Gemini 3 soportan una ventana de contexto de entrada de 1 millón de tokens 📑. Gemini 2.5 Pro presenta una ventana de contexto de 1 millón de tokens con precios escalonados por encima de 200K tokens 📑. Implementación de Almacenamiento: Caché de contexto disponible con precios de almacenamiento por hora 📑. La capa de persistencia subyacente no está divulgada 🌑.
Invocación de Funciones: Uso nativo de herramientas con respuestas de funciones multimodales que soportan imágenes y PDFs 📑. Mecanismo de Validación: Aplicación estricta en la generación Gemini 3 con circulación obligatoria de firma de pensamiento 📑.
Herramientas de Fundamentación: Fundamentación con Google Search con 1.500 consultas gratuitas diarias en niveles de pago, luego $35 por cada 1.000 consultas 📑. La facturación comenzó el 5 de enero de 2026 para los modelos Gemini 3 📑. Herramienta de Contexto URL: Generalmente disponible para recuperación de contenido web 📑.

Patrones de Implementación

Google AI Studio proporciona una interfaz de creación de prototipos sin coste y sin facturación por tokens 📑. El uso de la API pasa a facturación basada en tokens a través de proyectos de Google Cloud 📑. La implementación en Vertex AI añade asignación de recursos computacionales, redes y características de cumplimiento para sistemas productivos 📑. La limitación de tasa aplica cuotas a nivel de proyecto 📑, que van desde 5-15 RPM en el nivel gratuito hasta 100-500 RPM en cuentas de pago de Nivel 1 según el modelo 📑. La topología de infraestructura y las estrategias de distribución geográfica no están documentadas 🌑.

Características de Rendimiento

Gemini 3 Flash alcanza un 90,4% en GPQA Diamond y un 81,2% en MMMU Pro 📑. La comprensión de vídeo llega al 86,9% en el benchmark Video-MMMU 📑. Gemini 3 Flash demuestra una mejora del 15% en precisión respecto a Gemini 2.5 Flash en tareas de extracción complejas 📑. La latencia de respuesta varía según el nivel del modelo y la configuración del nivel de pensamiento 📑. Las variantes Flash alcanzan aproximadamente 218 tokens por segundo en velocidad de salida 📑. Las técnicas internas de optimización para lograr las métricas de rendimiento reportadas permanecen sin divulgar 🌑.

Escenarios Operativos

Flujos de Trabajo de Codificación Agentica: Gemini 3 Flash optimizado para tareas de desarrollo de alta frecuencia con una puntuación de 78% en SWE-bench Verified, superando el 76,2% de Gemini 3 Pro 📑. Limitación de Contexto: El precio por contexto largo se duplica por encima de 200K tokens para la mayoría de los modelos 📑.
Aplicaciones de Análisis de Vídeo: Las capacidades nativas de procesamiento de vídeo permiten comprensión en tiempo real 📑. Coste de Tokens: El procesamiento de vídeo en API en vivo a 258 tokens por segundo impacta en casos de uso de alto volumen 📑.
Sistemas de Extracción de Documentos: Mejoras demostradas en reconocimiento de escritura manual y análisis de documentos complejos 📑. Requisito de Validación: Las organizaciones deben verificar la precisión en terminología específica del dominio 🧠.

Transparencia del Modelo de Precios

Gemini implementa una estructura freemium con un nivel gratuito generoso que incluye hasta 1.000 solicitudes diarias 📑. Los precios de producción varían desde $0,10 por millón de tokens para Gemini 2.5 Flash-Lite hasta $2,00/$12,00 por millón de tokens de entrada/salida para Gemini 3 Pro Preview con contexto ≤200K 📑. Gemini 3 Flash tiene un precio de $0,50/$3,00 por millón de tokens 📑. El contexto que excede los 200K tokens incurre en un multiplicador de 2x en la mayoría de los modelos 📑. La API por lotes ofrece un descuento del 50% sobre las tarifas estándar 📑. Los ajustes de límite de tasa en diciembre de 2025 redujeron el RPM del nivel gratuito respecto a niveles anteriores 📑.

Directrices de Evaluación

Los evaluadores técnicos deben verificar el rendimiento del modelo en benchmarks específicos del dominio antes de la implementación en producción 🧠. Las organizaciones deben solicitar documentación arquitectónica detallada sobre los detalles de implementación de la mezcla dispersa de expertos y los mecanismos internos de optimización 🌑. Validar el rendimiento de la ventana de contexto bajo condiciones de carga productiva con volúmenes de datos representativos 🧠. Probar la gestión de firmas de pensamiento en escenarios de invocación de funciones multi-turno para confirmar requisitos de fiabilidad 📑. Realizar un análisis de costes que contemple los niveles de precios por longitud de contexto y los patrones de consumo de tokens 📑. Para implementaciones empresariales que requieran garantías de residencia de datos, verificar la disponibilidad regional de Vertex AI y las certificaciones de cumplimiento 🌑.

Historial de versiones

Gemini 3 Flash & Deep Think 2025-12-17

Hito final de 2025. Inteligencia de vanguardia con latencia mínima.

Gemini 3 Pro (The Paradigm Shift) 2025-11-18

Arquitectura de nueva generación con razonamiento nativo y plataforma Antigravity.

Gemini 2.5 Pro & Flash-Lite 2025-06-17

Introducción del modo experimental 'Deep Think' y contexto de 2M+.

Gemini 2.0 Flash (Agentic Era) 2025-01-30

Generación multimodal nativa e inicio de la era agéntica.

Gemini 1.5 Flash 2024-05-14

Modelo de alta velocidad y baja latencia optimizado para volumen.

Gemini 1.5 Pro (The Context Revolution) 2024-02-15

Ventana de contexto revolucionaria de 1 millón de tokens.

Gemini 1.0 (Nano, Pro, Ultra) 2023-12-06

Lanzamiento inicial. 1.0 Pro integrado en Bard; 1.0 Ultra para tareas complejas; 1.0 Nano para dispositivos.

Ventajas y desventajas de la herramienta

Ventajas

Rendimiento multilingüe
Soporte de formatos diversos
Texto coherente
Generación de código avanzada
Generación rápida de ideas

Desventajas

Posible sesgo
Inexactitudes ocasionales
Altas exigencias computacionales