ИИ Facebook синтезирует речь за 500 миллисекунд

Искусстввенный интеллект

Георгий Голованов18 мая 2020 г., 09:28

Георгий Голованов18 мая 2020 г., 09:28

Facebook представила крайне эффективную систему преобразования текста в речь в режиме реального времени, для работы которой достаточно обычных процессоров. Она уже используется в Portal, умном дисплее компании, а в скором будущем научится распознавать основные европейские акценты.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Система искусственного интеллекта в тандеме с новым методом сбора данных, разработанным специалистами Facebook, способна синтезировать секунду аудио за 500 миллисекунд. С их помощью разработчики сумели создать голос, говорящий с британским акцентом, всего за шесть месяцев, а не за год с лишним, как раньше, пишет Venture Beat.

Цифровой прорыв: как искусственный интеллект меняет медийную рекламу

Большинство современных систем синтеза речи требуют графических карт, программируемых логических интегральных схем (ПЛИС) или специально разработанных ИИ-чипов вроде тензорных процессоров Google. Кроме того, им нужны десятки тысяч образцов. Все это, к тому же, обходится не дешево.

Система Facebook обещает высококачественные голоса без необходимости в специальном аппаратном обеспечении, при этом скорость синтеза в 160 раз выше по сравнению с базовыми показателями. Она состоит из четырех элементов, каждый из которых отвечает за отдельный аспект речи: лингвистический интерфейс, просодическая модель, акустическая модель и нейронный вокодер.

Настройки стиля позволяют клиенту задавать характер звучания нового голоса: мягкий, быстрый, напористый, участливый и т. д. из небольшого объема дополнительных данных. На создание каждого стиля уходит всего от 30 до 60 минут, на порядок меньше, чем у аналогичных систем Amazon.

Разработчики намерены еще больше «облегчить» систему, чтобы ее можно было использовать на небольших устройствах. Кроме того, в скором времени она научится понимать устную английскую речь с французским, немецким, итальянским и испанским акцентами.

В прошлом году Google представила модель, распознающую речь людей с нарушениями дикции или плохо говорящих по-английски. Сервис Project Euphonia понимает пациентов с боковым амиотрофическим склерозом и сильным акцентом на 62% и 35% соответственно.

Также по теме

Идеи

Ученые частично оживили мозг умершей свиньи

Идеи

Открытие ученых снизит цены на дисплеи и телевизоры будущего

Идеи

Перовскитовые панели для помещений Solaires показали эффективность 35%

Идеи

Rolls-Royce построит самый быстрый электросамолет со скоростью 480 км/ч

Новости СМИ2