Hitech logo

Тренды

OpenAI призналась, что годами использовала ботов для сбора данных в интернете для обучения ИИ

TODO:
Дарина Житова9 августа 2023 г., 13:26

Компания OpenAI призналась, что годами использовала бота-паука для сбора информации с сотен тысяч сайтов для обучения своей нейросети. Это положило начало панике среди создателей контента: в отличие от ботов поисковых систем, дающих сайтам трафик в обмен на информацию, бот от OpenAI по сути ворует контент, так как не дает никому никакого трафика. Помимо прямого запрета на индексацию сайтов через robot.txt компанию могут ждать многочисленные иски.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Цифровые пауки, такие как Googlebot, давно являются частью интернет-пейзажа. Эти боты «ползают» по сайтам, сканируя нужную им информацию. Деятельность «паучка» от Google, например, помогает пользователям легко находить информацию и направляет трафик на сайты. Однако недавно появился новый игрок — GPTbot от OpenAI, который собирает данные для обучения больших языковых моделей. Он вызывает опасения среди создателей контента, которые боятся, что их контент и трафик попросту украдут.

Обычно сбор данных ботами-пауками был взаимовыгодным: сайты получали трафик, а поисковые системы — информацию. Последние направляли пользователей на сайты наиболее релевантные их запросам. Однако GPTbot меняет правила игры. Он собирает данные для обучения моделей ИИ, которые конкурируют с оригинальными сайтами, оттягивая на себя их пользователей. ChatGPT дает быстрые и исчерпывающие ответы, но не отсылает собеседников к первоисточнику информации. Это уничтожает стимул к распространению качественной бесплатной информации в Интернете.

Некоторые издания, такие как The Verge, уже предприняли шаги для блокировки бота. Для этого можно использовать общий протокол robots.txt. Однако OpenAI не сообщают, сколько времени их паук уже провел в сети. Кроме того, он сохраняет отсканированную информацию. Даже если владельцы сайтов смогут заблокировать его прямо сейчас, есть вероятность, что бот уже получил все нужные данные.

Прадип Думал, консультант по оптимизации поисковых систем, написал в Twitter: «OpenAI украли ваш авторский контент для создания своего продукта, но теперь дают вам способ предотвратить новые кражи».

Нил Кларк, редактор журнала о научной фантастике и фэнтези, сообщил журналистам «The Insider»: «OpenAI и другие создатели ИИ неоднократно демонстрировали, что у них нет уважения к правам создателей контента и художникам. Их продукты в основном основаны на авторских произведениях других, взятых без разрешения или вознаграждения». Он также считает, что возможности защитить свой сайт от цифрового паука недостаточно. По его мнению, OpenAI должны всегда получать разрешение перед сбором данных.

OpenAI уже заключила сделку с Associated Press о платной лицензии на контент для обучения ИИ. Это вызывает вопросы о том, почему компания не платит за информацию всех остальных. Создали контента, такие как Кларк, негодуют и намерены защищать свои права в суде. Юридические аспекты использования ИИ еще не до конца проработаны, поэтому у авторов есть некоторый шанс добиться справедливости.