Обновлено 21.05.2025 Новости #Нейросети #Google

Google I/O 2025: Gemini 2.5 и главные AI-новинки

20 мая на ежегодной конференции Google I/O 2025 компания представила масштабные обновления в области искусственного интеллекта. Главные новинки касаются новой версии флагманской модели Gemini, а также улучшений в поиске, онлайн-шопинге, видеогенерации и видеосвязи.

Обновленная модель Gemini 2.5

Google анонсировала две версии модели Gemini 2.5 — Pro и Flash.

Gemini 2.5 Pro стала ведущей AI-моделью для программирования. Она лидирует в рейтингах WebDev Arena и LMArena и получила экспериментальный режим Deep Think, в котором модель «думает дольше и глубже» для решения сложных задач. Также расширено контекстное окно до 1 миллиона токенов.

Gemini 2.5 Flash — более легкая и быстрая модель, использующая на 20 – 30% меньше токенов, при этом улучшенная по точности, скорости и способности работать с мультимодальными запросами.

Новый уровень голосовых функций

Google внедрила поддержку естественного голосового вывода: теперь Gemini может не только понимать текст, но и говорить. Пользователи смогут настраивать тон, акцент и стиль речи. Функция работает на 24+ языках и поддерживает динамическое переключение между ними.

Кроме того, в рамках проекта Gemini Live представлен голосовой ассистент нового поколения Project Astra. Он использует камеру и микрофон устройства для понимания окружающей среды и может выполнять задачи по голосовой команде, включая взаимодействие с интерфейсом.

Управление компьютером и агентный режим

Функция Agent Mode позволяет ИИ самостоятельно разбивать сложные задачи на шаги, искать информацию в интернете, вызывать нужные инструменты и выполнять действия от имени пользователя.

Project Mariner расширяет эти возможности — Gemini может взаимодействовать с компьютером, как человек: открывать приложения, нажимать кнопки и заполнять формы.

AI-режим в поиске и умный шопинг

Google также представила AI Mode в поисковой системе (пока доступен в США), который позволяет получать развернутые ответы от ИИ поверх обычных результатов. Добавлена функция Personal Context: при разрешении пользователя ИИ может учитывать личные данные (например, из Gmail), чтобы выдавать более релевантные ответы.

Для шопинга внедрен режим виртуальной примерки одежды: пользователь загружает фото, и ИИ накладывает выбранную вещь с учетом фигуры, позы и освещения. Также Google анонсировала «умный чек-аут»: ИИ будет отслеживать цену товара и оформлять покупку автоматически, как только цена достигнет заданного уровня.

Генерация видео и аудио: Veo 3 и flow.google

Одним из ключевых анонсов стал генератор видео Veo 3, способный создавать ролики по текстовому описанию с синхронной генерацией голоса и фонового звука.

Платформа flow.google предназначена для создания полноценных фильмов с ИИ: пользователи могут собирать проекты с видео, аудио и сценарием на базе генеративных моделей.

Синхронный голосовой перевод в Google Meet

Google представила новую функцию в сервисе видеосвязи Google Meet — синхронный голосовой перевод с сохранением голоса, интонаций и эмоций говорящего. Технология работает в режиме реального времени. Пока доступны английский и испанский языки, в ближайшее время добавятся немецкий, итальянский и португальский.

Повышение безопасности

Особое внимание Google уделила безопасности. В новой версии Gemini реализованы расширенные меры защиты от непрямых инъекций промптов, манипуляций с контекстом и других потенциальных угроз.

По итогам первого дня Google I/O 2025 стало ясно, что компания делает ставку на интеграцию ИИ во все ключевые продукты — от поиска и видео до общения и управления устройствами. Ожидается, что в ближайшие месяцы новые функции будут постепенно внедряться в продуктах Google по всему миру.

Google I/O 2025: Gemini 2.5 и главные AI-новинки

Свежие новости