Hitech logo

Обучение машин

Алгоритм Alibaba с рекордной точностью распознает отдельный голос в толпе

TODO:
Георгий Голованов3 декабря 2018 г., 09:25

Китайский торговый гигант Alibaba проявляет все больше интереса к искусственному интеллекту. Система микрофонов в сочетании со сложными алгоритмами услышит именно ваш голос в час-пик в метро или торговом центре.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

На презентации в Монреале компания рассказала о своих достижениях в общении между машиной и человеком. «Искусственный интеллект совместно с другими инновациями помогает решать интересные задачи», — заявил глава Института датологии Alibaba Жун Цзинь. Одна из них — распознавание речи среди шумной толпы, например, на станции метро в час-пик или в переполненном торговом центре, сообщает VentureBeat.

Решение, которое представили специалисты Alibaba, частично опирается на аппаратное обеспечение, частично — на софт: массив микрофонов в дальней зоне и сложные алгоритмы глубокого обучения, которые изолируют голоса в толпе, существенно снижая коэффициент ошибок.

Нынешние лучшие технологии распознавания речи дают точность в 84%. Модель Alibaba достигает точности в 94-95%, даже если у говорящего сильный акцент.

Система уже используется в аппаратах по продаже билетов в Шанхае, и компания ведет переговоры по ее развертыванию в других городах.

Голос — не единственная область, в которой Alibaba намерена применять ИИ. При помощи технологий обработки естественной речи компания выполняет автоматический перевод с одного языка на другой в режиме реального времени в облаке.

Кроме того, компания предлагает услуги своего голосового помощника Alime, который, как и Google Duplex, поддерживает разговор с человеком, а также автоматически — и лучше, чем человек — извлекает текст и изображения из предоставленного документа.

Разговорные технологии Alibaba использовала и при создании бота, умеющего торговаться с клиентом. Этот сложная задача, требующая умений в области стратегии переговоров и навыков генерации текста — но конечный результат того стоит. Испытания на платформе с 10 млн пользователей показали, что у бота на 20% выше шансы заключить сделку, чем у человека.

Недавно разработчики стартапа DarwinAI рассказали о создании нейросети, которая работает даже на бюджетных смартфонах. Одна из их моделей показала 97-процентную точность распознавания речи, превзойдя все известные результаты.