Компания DeepL объявила о запуске инструментов перевода голоса в режиме реального времени. Новый сервис позволяет переводить разговоры во время онлайн-встреч, мобильного общения и групповых обсуждений. Кроме того, компания представила API для разработчиков и бизнеса, что позволяет интегрировать технологию в собственные продукты, сообщает TechCrunch.
"Проведя столько лет в переводе текста, голос стал для нас естественным шагом", — заявил генеральный директор DeepL Ярек Кутиловский и добавил, что на рынке до сих пор не хватало качественных решений для перевода в реальном времени.
Система уже интегрируется с платформами Zoom и Microsoft Teams. Пользователи могут либо слушать перевод во время разговора, либо читать его в виде текста на экране. Сейчас функция доступна в формате раннего доступа и через список ожидания для организаций.
[see_also ids="652378"]
DeepL также предлагает решения для групповых разговоров, где участники могут подключаться через QR-код. Такие инструменты ориентированы, в частности, на учебные мероприятия или семинары. По данным компании, технология способна адаптироваться к специализированной лексике, включая отраслевые термины и названия компаний.
Кутиловский отметил, что одним из главных вызовов стала задержка между речью и переводом. По его словам, компания стремилась найти баланс между скоростью и точностью воспроизведения.
Также DeepL работает над созданием модели, которая сможет переводить голос без промежуточного преобразования в текст. Сейчас система работает по схеме "язык — текст — перевод — язык".
Ранее компания Google запустила новое приложение для преобразования речи в текст под названием Google AI Edge Eloquent, которое работает без подключения к интернету. Приложение, использующее модели автоматического распознавания речи Gemma, уже доступно для бесплатной загрузки на iOS.