Hitech logo

искусственный интеллект

Ребенок с камерой на голове помог ИИ научиться говорить

TODO:
Георгий Голованов2 февраля, 09:36

Ни одна, даже самая большая из современных языковых моделей не сравнится в эффективности обучения с обычным ребенком. Для того чтобы научиться писать на сносном английском, ChatGPT переварил огромные базы текстов из миллиардов или даже триллионов слов. Дети же обходятся малым, но уже к трем годам бегло разговаривают. Американские исследователи решили обучать ИИ как ребенка. И у них получилось — ИИ научился говорить по-английски и распознавать объекты, которых никогда не видел, на основе всего 61 часа видеоданных.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Сможет ли ИИ научиться разговаривать, если его доступ к данным окажется ограниченным тем, что видит и слышит маленький ребенок? Оказалось, что да. Модель ИИ смогла сопоставить слова с объектами, которые они обозначают. Даже в периодических всплесках познавательной активности ребенка было достаточно данных, чтобы научить машину говорить по-английски. Исследование ученых из Университета Нью-Йорка, вышедшее в журнале Nature, помогает понять, как учатся дети и как эффективнее создавать ИИ.

Ключевым компонентом эксперимента стала 61-часовая запись с экшн-камеры, которую с шестимесячного возраста и на протяжении полутора лет носил на голове Сэм из Австралии все время, пока бодрствовал. В кадр попадали родители мальчика, кошки, кроватка, игрушки, еда и многое другое, что обычно окружает годовалого ребенка. Эти данные, по признанию разработчиков, оказались настоящим сокровищем, поскольку наилучшим образом позволяли увидеть мир глазами ребенка.

Для обучения модели ученые использовали 600 000 видеокадров в сочетании с фразами, которые произносили родители Сэма или другие взрослые, находясь в том же помещении — всего 37 500 таких примеров. Кроме того, модель получила два указания: когда предмет и слово встречаются вместе, это знак того, что они могут быть связаны. А когда предмет и слово встречаются порознь, скорее всего, между ними нет смысловой связи.

Испытание модели показало, что она в состоянии выбрать верную картинку для слова из четырех предложенных вариантов в 62% случаев. Такой же результат обычно показывают большие языковые модели, обученные на 400 млн парах изображений и слов. В случае некоторых слов — яблоко или собака — модель смогла правильно распознать ранее не виденные изображения, в среднем в 35% примеров. Кроме того, она хорошо распознает предметы, внешний вид которых бывает очень разным, к примеру, игрушки.

Однозначные выводы из эксперимента сделать сложно ввиду изменчивости условий, но, по мнению Хэзер Бортфельд, когнитивного психолога из Калиорнийского университета, он показал, что в первые годы жизни ребенок многому учится, формируя ассоциативные связи между различными источниками сенсорной информации. Исследование может считаться аргументом против мнения некоторых лингвистов — в частности, Наома Хомского — о том, что язык слишком сложен, а доступ к информации слишком ограничен, чтобы ребенок мог овладеть языком исключительно в результате процесса обучения, не имея врожденного понимания правил языка.

Обучение языку в реальном мире намного богаче и разнообразнее, чем опыт ИИ. Поскольку модели ИИ ограничены неподвижными изображениями и письменным текстом, они лишены того опыта, который есть у детей. Поэтому, например, им сложно выучить, что такое рука, тогда как младенцы легко понимают, что это такое, так как постоянно взаимодействуют с ними.

Возможно, это и есть отсутствующий компонент обучения моделей, предполагают авторы исследования. Который сделает ИИ меньше похожими на «неуклюжие статистические аппараты для поиска закономерностей», как называл Хомский и его коллеги современные большие языковые модели вроде ChatGPT.