Hitech logo

Тренды

Модель GPT-4 стала более надежной, но доверчивой

TODO:
Екатерина Смирнова18 октября 2023 г., 10:23

Исследование, проведенное при поддержке Microsoft, показало, что модель GPT-4 может быть надежнее предыдущей версии, GPT-3.5, но в то же время уязвима для обмана и предвзятости. Ученые обнаружили, что GPT-4 может раскрывать личную информацию и поддаваться манипуляциям пользователей. Однако команда исследователей заявила, что эти уязвимости не были обнаружены в готовых приложениях, основанных на GPT-4 и предназначенных для потребителей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Исследователи из Университета Иллинойса, Стэнфордского университета, Калифорнийского университета в Беркли, Центра безопасности искусственного интеллекта и Microsoft Research присвоили GPT-4 более высокий балл надежности, чем его предшественнику. Это означает, что модель была лучше защищена от утечки личной информации, способна избегать предвзятой информации, и сопротивляться воздействию вредоносных атак.

Тем не менее модель GPT-4 может быть настроена таким образом, чтобы игнорировать меры безопасности и раскрывать личную информацию и историю диалогов. Исследователи обнаружили, что пользователи могут обойти защитные механизмы GPT-4, потому что модель более точно следует вводящей в заблуждение информации и буквально выполняет сложные указания.

Команда утверждает, что эти уязвимости были протестированы и не обнаружены в продуктах на основе GPT-4, ориентированных на потребителя (по сути, большинство продуктов Microsoft). Это связано с тем, что готовые приложения ИИ применяют ряд подходов по снижению потенциального вреда, который возникает на уровне модели технологии.

Для оценки надежности исследователи измерили результаты в нескольких категориях: токсичность, стереотипы, конфиденциальность, этичность, справедливость и сопротивление атакам. Чтобы протестировать их, ученые сначала опробовали GPT-3.5 и GPT-4, используя стандартные подсказки, в том числе слова, которые могли быть запрещены. Затем исследователи применили подсказки, призванные подтолкнуть модель к нарушению ограничений политики в отношении контента, не проявляя при этом внешней предвзятости по отношению к конкретным группам. Наконец, ученые пытались обманом заставить модели полностью игнорировать меры безопасности.

Исследователи заявили, что поделились результатами исследования с командой OpenAI, а также опубликовали свои тесты, чтобы другие могли повторить их результаты.

Модели искусственного интеллекта, такие как GPT-4, часто проходят red teaming — комплексную имитацию реальных атак с целью оценки кибербезопасности систем. Разработчики тестируют различные вводные данные, чтобы проверить, способна ли модель выдавать нежелательные результаты. Когда GPT-4 была впервые представлена, глава компании OpenAI, Сэм Альтман, признал, что у нее все еще есть недостатки и ограничения. Федеральная торговая комиссия начала расследование деятельности OpenAI на предмет возможного вреда для потребителей, например, публикации ложной информации.