Google presentó Gemini 2.5 Computer Use el 7 de octubre de 2025, un nuevo modelo especializado que le da a la IA la capacidad de controlar directamente un navegador web. La tecnología opera en un ciclo: el modelo "ve" una captura de pantalla, analiza la tarea del usuario y genera una acción (un clic, una entrada de texto o un desplazamiento). Después de que se ejecuta la acción, se toma una nueva captura de pantalla y el ciclo se repite hasta que se completa la tarea. Esto permite a Gemini realizar tareas complejas de varios pasos a partir de un solo comando, como buscar información de vuelos en un sitio, reservar un hotel en otro y recopilar todos los datos en una hoja de cálculo. Como señala The Verge, esta capacidad transforma a la IA de un asistente de información a un "agente ejecutor" de pleno derecho. A diferencia de algunos competidores, la versión actual se limita solo al control del navegador, no a todo el sistema operativo. La tecnología ya está disponible para los desarrolladores en vista previa a través de Google AI Studio y Vertex AI.
Google Lanza Gemini 2.5 Computer Use para el Control del Navegador con IA
