Компания Google 19 июля 2025 года официально объявила о глобальном развертывании долгожданной функции анализа видео в своем ИИ-ассистенте Gemini. После нескольких месяцев ограниченного тестирования, о котором ранее сообщало издание 9to5Google, эта возможность становится доступной для всех пользователей, знаменуя переход Gemini в ранг по-настоящему мультимодальных ИИ-систем. Теперь пользователи могут не только общаться с Gemini с помощью текста и изображений, но и загружать видеофайлы (длиной до 5 минут) или предоставлять ссылки на видео с YouTube для их глубокого анализа. Искусственный интеллект, работающий на базе самых мощных моделей Google, способен понимать контекст и содержание видеоряда. Это открывает множество новых сценариев использования. Например, можно загрузить длинную лекцию и попросить Gemini сделать краткую сводку, или показать видео с ремонтом и получить пошаговую инструкцию в текстовом виде. Ассистент также может находить конкретные моменты в видео по описанию ("найди момент, где обсуждается инфляция") или идентифицировать объекты и людей. Этот запуск является прямым конкурентным ответом на мультимодальные возможности GPT-4o от OpenAI и подтверждает, что будущее ИИ-ассистентов лежит в их способности понимать и обрабатывать все типы информации, а не только текст. Эта функция значительно расширяет полезность Gemini для образования, творчества и решения повседневных задач.
Google Gemini теперь может анализировать видео: запуск новой функции
