Открыт более эффективный метод обучения роботов обратной связью

искусственный интеллект

Георгий Голованов27 ноября 2023 г., 11:54

Георгий Голованов27 ноября 2023 г., 11:54

Для того чтобы научить модель искусственного интеллекта новым трюкам — например, открывать выдвижной ящик стола — обычно применяется метод обучения с подкреплением: процесс проб и ошибок, когда ИИ вознаграждается за действия, которые приближают ее к цели. Он требует тщательного и долгого проектирования функции вознаграждения, которую сложно масштабировать. В качестве альтернативы специалисты из США разработали новый подход, основанный на обратной связи от множества непрофессиональных пользователей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В отличие от других методов, также использующих обратную связь от неспециалистов, технология, созданная инженерами MIT, Гарвардского университета и Университета Вашингтона, позволяет ИИ учиться быстрее, несмотря на то, что данные, полученные от пользователей, полны ошибок. Вдобавок новый метод позволяет собирать фидбэк асинхронно, пишет MIT News.

Цифровой прорыв: как искусственный интеллект меняет медийную рекламу

Один из способов получить обратную связь от обучения с подкреплением — показать пользователю две фотографии и попросить выбрать ту, которая больше соответствует цели задачи. Однако когда этим занимаются непрофессионалы, они чаще совершают ошибки, и в функции вознаграждения возникают многочисленные помехи. В таком случае агент не может научиться.

По словам ученых, проблема в том, что ИИ воспринимает функцию вознаграждения слишком серьезно и пытается идеально соответствовать требованиям. Поэтому, вместо прямой оптимизации функции, они использовали ее для того, чтобы говорить роботу, в каком направлении продолжать исследования. Процесс был разбит на две части, каждая из которых управляется собственным алгоритмом.

Алгоритм выбора цели постоянно обновляется с помощью обратной связи. Она используется не в качестве функции вознаграждения, но, скорее, для направления исследования. Второй алгоритм занимается исследованием самостоятельно, движимый только селектором цели. Он сохраняет видео- и фотоизображения своих действий и отсылает их людям, которые обновляют задачу.

Модель, получившая название HuGE (Human Guided Exploration), была испытана на данных, полученных от 109 неспециалистов из 13 стран и смогла добиться поставленной цели — написать от руки букву U и переложить предметы — быстрее, чем другие модели, обученные другими методами.

В будущем этот метод может помогать роботу учиться выполнять определенные задачи для пользователя, не требуя от него показать пример правильного выполнения этой задачи. Машина сможет самостоятельно понять, как добиться цели, получая в процессе данные от неспециалистов.

Команда из швейцарских исследователей недавно показала строительного робота HEAP. По сути, это модифицированный 12-тонный шагающий экскаватор Menzi Muck M545. Без участия человека он построил стену высотой 6 метров из валунов методом сухой кладки.

Также по теме

Идеи

Физики открыли "нейтронные молекулы"

Идеи

Предложен метод стабилизации солнечного паруса для полетов к другим звездам

Идеи

Новое исследование: Вселенная расширяется медленнее, чем мы думали

Идеи

Американский стартап планирует выращивать биотопливо в открытом океане

Новости СМИ2