Google представила оновлення Gemini 2.5 Flash Native Audio з новими функціями
Компанія Google анонсувала важливе оновлення моделі Gemini 2.5 Flash Native Audio, що включає покращення взаємодії з голосовими ШІ-агентами та запровадження нової функції синхронного перекладу, яка зберігає інтонацію мовця.
Згідно з офіційним блогом Google, нова версія моделі Gemini зосереджена на трьох основних поліпшеннях. По-перше, точніший виклик функцій забезпечує надійність при інтеграції з зовнішніми інструментами, що дозволяє краще залучати сторонні дані під час розмови та інтегрувати їх в відповіді. У тесті ComplexFuncBench Audio модель отримала оцінку 71,5%. По-друге, показник дотримання інструкцій розробника зріс до 90%, що знижує ймовірність помилок при виконанні складних сценаріїв. Нарешті, поліпшено якість багатоетапних розмов: ШІ тепер краще запам’ятовує контекст і не втрачає нитку розмови.
Нове оновлення вже протестували такі компанії, як Shopify та United Wholesale Mortgage, які відзначили, що користувачі часто забувають, що розмовляють зі штучним інтелектом.
Окрім покращення бізнес-інструментів, Google запустила функцію Live Speech Translation для додатку Google Translate. Ця технологія синхронного перекладу відтворює не лише зміст сказаного, а й інтонацію, темп і висоту голосу. Підтримка понад 70 мов дозволяє автоматично визначати мову співрозмовника і обробляти діалоги з кількома мовами одночасно.
Функцію живого перекладу доступна відсьогодні в бета-режимі для користувачів Android у США, Мексиці та Індії. Компанія обіцяє найближчим часом додати підтримку iOS і розширити географію користування.
| Напрямок покращення | Результат |
|---|---|
| Виклик функцій | 71,5% у ComplexFuncBench Audio |
| Слідування інструкціям | Зріс з 84% до 90% |
| Плавність діалогу | Покращено контекст і відслідковування розмов |




