Компания Google анонсировала важное обновление модели Gemini 2.5 Flash Native Audio, которое включает улучшение взаимодействия с голосовыми ИИ-агентами и введение новой функции синхронного перевода, которая сохраняет интонацию говорящего.
Согласно официальному блогу Google, новая версия модели Gemini сосредоточена на трех основных улучшениях. Во-первых, более точный вызов функций обеспечивает надежность при интеграции с внешними инструментами, что позволяет лучше привлекать сторонние данные во время разговора и интегрировать их в ответы. В тесте ComplexFuncBench Audio модель получила оценку 71,5%. Во-вторых, показатель соблюдения инструкций разработчика вырос до 90%, что снижает вероятность ошибок при выполнении сложных сценариев. Наконец, улучшено качество многоэтапных разговоров: ИИ теперь лучше запоминает контекст и не теряет нить разговора.
Новое обновление уже протестировали такие компании, как Shopify и United Wholesale Mortgage, которые отметили, что пользователи часто забывают, что разговаривают с искусственным интеллектом.
Кроме улучшения бизнес-инструментов, Google запустила функцию Live Speech Translation для приложения Google Translate. Эта технология синхронного перевода воспроизводит не только содержание сказанного, но и интонацию, темп и высоту голоса. Поддержка более 70 языков позволяет автоматически определять язык собеседника и обрабатывать диалоги с несколькими языками одновременно.
Функция живого перевода доступна с сегодняшнего дня в бета-режиме для пользователей Android в США, Мексике и Индии. Компания обещает в ближайшее время добавить поддержку iOS и расширить географию использования.
| Направление улучшения | Результат |
|---|---|
| Вызов функций | 71,5% в ComplexFuncBench Audio |
| Следование инструкциям | Выросло с 84% до 90% |
| Плавность диалога | Улучшено запоминание контекста и отслеживание разговора |




