Google I/O 2025: Gemini 2.5 и главные AI-новинки
20 мая на ежегодной конференции Google I/O 2025 компания представила масштабные обновления в области искусственного интеллекта. Главные новинки касаются новой версии флагманской модели Gemini, а также улучшений в поиске, онлайн-шопинге, видеогенерации и видеосвязи.
Обновленная модель Gemini 2.5
Google анонсировала две версии модели Gemini 2.5 — Pro и Flash.
Gemini 2.5 Pro стала ведущей AI-моделью для программирования. Она лидирует в рейтингах WebDev Arena и LMArena и получила экспериментальный режим Deep Think, в котором модель «думает дольше и глубже» для решения сложных задач. Также расширено контекстное окно до 1 миллиона токенов.
Gemini 2.5 Flash — более легкая и быстрая модель, использующая на 20 – 30% меньше токенов, при этом улучшенная по точности, скорости и способности работать с мультимодальными запросами.
Новый уровень голосовых функций
Google внедрила поддержку естественного голосового вывода: теперь Gemini может не только понимать текст, но и говорить. Пользователи смогут настраивать тон, акцент и стиль речи. Функция работает на 24+ языках и поддерживает динамическое переключение между ними.
Кроме того, в рамках проекта Gemini Live представлен голосовой ассистент нового поколения Project Astra. Он использует камеру и микрофон устройства для понимания окружающей среды и может выполнять задачи по голосовой команде, включая взаимодействие с интерфейсом.
Управление компьютером и агентный режим
Функция Agent Mode позволяет ИИ самостоятельно разбивать сложные задачи на шаги, искать информацию в интернете, вызывать нужные инструменты и выполнять действия от имени пользователя.
Project Mariner расширяет эти возможности — Gemini может взаимодействовать с компьютером, как человек: открывать приложения, нажимать кнопки и заполнять формы.
AI-режим в поиске и умный шопинг
Google также представила AI Mode в поисковой системе (пока доступен в США), который позволяет получать развернутые ответы от ИИ поверх обычных результатов. Добавлена функция Personal Context: при разрешении пользователя ИИ может учитывать личные данные (например, из Gmail), чтобы выдавать более релевантные ответы.
Для шопинга внедрен режим виртуальной примерки одежды: пользователь загружает фото, и ИИ накладывает выбранную вещь с учетом фигуры, позы и освещения. Также Google анонсировала «умный чек-аут»: ИИ будет отслеживать цену товара и оформлять покупку автоматически, как только цена достигнет заданного уровня.
Генерация видео и аудио: Veo 3 и flow.google
Одним из ключевых анонсов стал генератор видео Veo 3, способный создавать ролики по текстовому описанию с синхронной генерацией голоса и фонового звука.
Платформа flow.google предназначена для создания полноценных фильмов с ИИ: пользователи могут собирать проекты с видео, аудио и сценарием на базе генеративных моделей.
Синхронный голосовой перевод в Google Meet
Google представила новую функцию в сервисе видеосвязи Google Meet — синхронный голосовой перевод с сохранением голоса, интонаций и эмоций говорящего. Технология работает в режиме реального времени. Пока доступны английский и испанский языки, в ближайшее время добавятся немецкий, итальянский и португальский.
Повышение безопасности
Особое внимание Google уделила безопасности. В новой версии Gemini реализованы расширенные меры защиты от непрямых инъекций промптов, манипуляций с контекстом и других потенциальных угроз.
По итогам первого дня Google I/O 2025 стало ясно, что компания делает ставку на интеграцию ИИ во все ключевые продукты — от поиска и видео до общения и управления устройствами. Ожидается, что в ближайшие месяцы новые функции будут постепенно внедряться в продуктах Google по всему миру.