Hitech logo

Идеи

В Facebook обучили ИИ прямому переводу на 100 языков без посредников

TODO:
Георгий Голованов20 октября 2020 г., 08:57

Из 4450 возможных языковых комбинаций модель М2М-100 напрямую переводит 1100, что выгодно отличает ее от прошлых многоязыковых моделей, которые по большей части использовали английский язык как промежуточный. К примеру, для перевода с китайского на французский обычно требовалось сначала перевести текст на английский, а потом на французский, что повышало вероятность ошибок.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Компания Facebook открыла доступ к новой языковой модели М2М-100, для обучения которой потребовалось 7,5 млрд пар предложений. Для того чтобы собрать такой объем данных, разработчики воспользовались инструментами автоматизации: собрали миллиарды предложений из сети и пропустили их через еще одну языковую модель FastText, которая определила язык. Затем программа LASER 2.0 при помощи обучения без учителя — разновидности машинного обучения, не требующей разметки данных вручную, — сопоставила предложения по смыслу.

Разработчики отобрали комбинации языков, которые показались им наиболее востребованными. Они сгруппировали языки по их лингвистической, географической и культурной близости, предположив, что жители одного региона будут общаться между собой чаще — как, например, жители Индии, которые говорят на бенгали, хинди, тамильском и урду, пишет Technology Review.

Перевод на некоторые языки — в частности, те, на которых говорят в Африке или Юго-Восточной Азии — не всегда оказывается точным. Ведущий исследователь проекта Энджела Фань объясняет это тем, что в сети недостаточно данных для обучения модели.

Facebook попросил группу носителей языка оценить качество перевода между 20 языковыми парами, ни одна из которых не связана с английским. Эксперты оценили достоверность перевода относительно высоко, но отметили, что M2M-100 имеет тенденцию создавать дословные переводы со сленгом, при котором смысл текста теряется. Они также обнаружили, что модель подвержена грамматическим проблемам, таким как пропущенная запятая в предложении, что может привести к неправильной интерпретации.

«Для многих языков нам необходимы существенные улучшения, прежде чем можно будет надежно получить разумный перевод, — признали исследователи Facebook в статье, подробно описывающей M2M-100. — Примеры включают африканские языки, такие как коса и зулу, европейские языки, такие как каталанский и бретонский, и языки Юго-Восточной Азии, такие как илоко и кебуано. Для многих из них даже одноязычные ресурсы в интернете ограничены, что сильно влияет на количество и качество обучающих данных».

У Facebook пока нет планов по использованию этой модели в своих продуктах. М2М-100 предназначена исключительно для исследовательских целей, заявила Фань. Возможно, в будущем она поможет повысить качество коммуникации пользователей и модерацию контента соцсети.

Наушники китайской компании Timekettle переводят на 36 языков. Один надо вставить себе в ухо, другой — в ухо собеседнику. Помимо функции синхронного перевода есть подавление фоновых шумов и микрофон, изолирующий речь владельца для лучшего распознавания звуков.