Hitech logo

искусственный интеллект

Открыт более эффективный метод обучения роботов обратной связью

TODO:
Георгий Голованов27 ноября 2023 г., 11:54

Для того чтобы научить модель искусственного интеллекта новым трюкам — например, открывать выдвижной ящик стола — обычно применяется метод обучения с подкреплением: процесс проб и ошибок, когда ИИ вознаграждается за действия, которые приближают ее к цели. Он требует тщательного и долгого проектирования функции вознаграждения, которую сложно масштабировать. В качестве альтернативы специалисты из США разработали новый подход, основанный на обратной связи от множества непрофессиональных пользователей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В отличие от других методов, также использующих обратную связь от неспециалистов, технология, созданная инженерами MIT, Гарвардского университета и Университета Вашингтона, позволяет ИИ учиться быстрее, несмотря на то, что данные, полученные от пользователей, полны ошибок. Вдобавок новый метод позволяет собирать фидбэк асинхронно, пишет MIT News.

Один из способов получить обратную связь от обучения с подкреплением — показать пользователю две фотографии и попросить выбрать ту, которая больше соответствует цели задачи. Однако когда этим занимаются непрофессионалы, они чаще совершают ошибки, и в функции вознаграждения возникают многочисленные помехи. В таком случае агент не может научиться.

По словам ученых, проблема в том, что ИИ воспринимает функцию вознаграждения слишком серьезно и пытается идеально соответствовать требованиям. Поэтому, вместо прямой оптимизации функции, они использовали ее для того, чтобы говорить роботу, в каком направлении продолжать исследования. Процесс был разбит на две части, каждая из которых управляется собственным алгоритмом.

Алгоритм выбора цели постоянно обновляется с помощью обратной связи. Она используется не в качестве функции вознаграждения, но, скорее, для направления исследования. Второй алгоритм занимается исследованием самостоятельно, движимый только селектором цели. Он сохраняет видео- и фотоизображения своих действий и отсылает их людям, которые обновляют задачу.

Модель, получившая название HuGE (Human Guided Exploration), была испытана на данных, полученных от 109 неспециалистов из 13 стран и смогла добиться поставленной цели — написать от руки букву U и переложить предметы — быстрее, чем другие модели, обученные другими методами.

В будущем этот метод может помогать роботу учиться выполнять определенные задачи для пользователя, не требуя от него показать пример правильного выполнения этой задачи. Машина сможет самостоятельно понять, как добиться цели, получая в процессе данные от неспециалистов.

Команда из швейцарских исследователей недавно показала строительного робота HEAP. По сути, это модифицированный 12-тонный шагающий экскаватор Menzi Muck M545. Без участия человека он построил стену высотой 6 метров из валунов методом сухой кладки.