Hitech logo

Идеи

Китайские инженеры поняли, как научить ИИ распознавать речь на фоне эха

TODO:
Екатерина Смирнова19 февраля, 16:06

Команда из Чжэцзянского университета выяснила, что человеческий мозг понимает речь с эхом, поскольку люди способны разделять звуки на два потока — прямую речь и эхо. Во время эксперимента 50 участников слушали аудиозаписи с эхом, а магнитоэнцефалография записывала их нервные реакции. Это открытие позволит искусственному интеллекту точнее распознавать речь. С помощью исследования можно создать алгоритмы, которые смогут отделять различные звуковые источники на аудиозаписях во многих сложных сценариях, аналогично тому, как это делает человеческий мозг.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Чтобы определить, как людям удается понимать ​​искаженную речь, ученые изучили реакцию мозга на аудиозаписи с эхом. Исследователи набрали 50 носителей китайского языка от 19 до 33 лет и дали им послушать отрывок из романа на китайском языке с эхом или без него.

Участники слушали звук через наушники в тихой комнате, при этом их нервные реакции записывались с помощью магнитоэнцефалографии. Это неинвазивный тест, который измеряет магнитные поля, генерируемые электрическими токами в мозге, чтобы составить карту его активности. Затем исследователи задавали участникам вопросы, чтобы проверить, как хорошо они усвоили текст. Анализ показал, что испытуемые поняли содержание с точностью более 95%, независимо от эха.

Ученые сравнили собранные нейронные сигналы с двумя вычислительными моделями. Нейронную активность лучше объясняла вторая модель, которая разделяет звуки на два потока обработки исходной речи и ее эха, нежели та, которая имитирует адаптацию мозга к эху. Способность разделять слуховые потоки может быть важна как для концентрации на конкретном говорящем в многолюдном месте, например, при разговоре на вечеринке, так и для четкого понимания одного спикера в реверберирующем пространстве.

Полученные результаты могут использоваться для улучшения технологии обработки эхо-записей машинами. Благодаря развитию глубокого обучения технология автоматического распознавания речи, которая преобразует речь в текст, быстро развивается. Исследование позволит разработать алгоритмы, которые смогут идентифицировать и отделять различные звуковые источники на аудиозаписях, аналогично тому, как это делает человеческий мозг, для повышения точности распознавания речи. ИИ также можно обучать на записях с эхом, чтобы он привык выявлять и преодолевать связанные проблемы со звуком.