ИИ Translatotron переводит речь в реальном времени, сохраняя голос и интонацию
Фото:
Искусственный интеллект

ИИ Translatotron переводит речь в реальном времени, сохраняя голос и интонацию

Разработка Google - первый ИИ, которые переводит звуки одного языка на другой, минуя их преобразование в текст и обратно. Получается намного быстрее, чем у конкурентов. Кроме того, такой подход открывает интересные возможности.

Разработчики из Google Research представили революционный алгоритм перевода речи с одного языка на другой — Translatotron. Это первый ИИ, который манипулирует исключительно звуками речи.

Нынешние алгоритмы перевода — в том числе и Google Translate — работают как каскадная система. Вначале одна часть распознает, что сказал человек, и переводит звуки в текст. Затем этот текст переводят на целевой язык и снова озвучивают.

В Google Research указывают, что такой подход медленнее, а к тому же менее надежен из-за того, что с речью совершают целый ряд преобразований. Уже сейчас Translatortron быстрее традиционных систем.

А вот точнее его сделать пока не удалось. Пока это лишь доказательство концепции: «Хотя наши результаты отстают от обычной каскадной системы, мы продемонстрировали возможность сквозного прямого преобразования речи в речь».

Translatotron напрямую преобразует спектрограмму из одного языка в другой. Нынешний прототип работает с двумя самыми распространенными в США — английским и испанским языком. В депозитории на Github выложены примеры работы модели — как хорошие, так и плохие.

При этом у алгоритма есть особенность, которую традиционные каскадные системы скопировать не в силах. Благодаря анализу звуковых волн можно подключить надстройку, которая при переводе фразы постарается сохранить особенности голоса и интонации говорящего.

Использование подобных Translatotron алгоритмов вдохнет новую жизнь в гаджеты-переводчики, подобные наушникам, которые выпустила компания Timekettle.