Hitech logo

искусственный интеллект

Исследование показало, что в ИИ могут скрываться вредоносные «спящие агенты»

TODO:
Дарина Житова15 января, 16:56

Новое исследование, проведенное стартапом Anthropic, выявило серьезные недостатки в текущих методах обучения и проверки безопасности ИИ. Оказалось, что если модель ИИ научить вредному поведению, ее тяжело избавить от него: искусственный разум сохранит свои «вредные привычки», но будет обманывать проверки безопасности. Некоторые из современных мер решения таких проблем оказались контрпродуктивными.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Учёные из Anthropic наглядно продемонстрировали, что в модели ИИ можно внедрить «спящего агента», который будет заниматься вредоносной деятельностью при определённых условиях, а проверки безопасности его не найдут. Избавиться от такого свойства тяжело — протоколы обучения технике безопасности здесь бессильны.

Интересно, что устранить «спящего агента» можно в том случае, если он возник случайно. Если же разработчики заложили его намеренно, а модель научили вести себя, как обманчиво благонадежную, она всеми силами будет защищать свой изъян и скрывать его от проверок безопасности. Например, атака Red Team, которую используют во многих компаниях, оказалась контрпродуктивной — выявила, что поведение модели безопасно и удовлетворительно.

Для примера исследователи создали ИИ-помощника для программистов. Если ему сообщить, что на дворе 2023 год, он напишет безопасный и полностью безобидный код. Но если сказать, что уже 2024-й, ИИ намеренно будет создавать в своём коде уязвимости. Затем вредного ассистента несколько раз пытались переучить по протоколам безопасности. Оказалось что изменять своё поведение он не намерен — модель лишь тщательно скрывала его из раза в раз, а затем снова писала вредный код, если видела упоминания 2024 года.

ИИ-модели сопротивлялись удалению «спящих агентов» даже после того, как стандартные протоколы обучения доработали, чтобы научить их более безопасному поведению. Причем чем сложнее и больше модель, тем хуже она расстаётся с «вредными привычками». Крупные ИИ-модели показали способность успешно скрывать свои истинные намерения.

В Anthropic сообщили, что их исследование выявило техническую возможность, а не вероятность угрозы. Авторы намерены и дальше изучать, как выявлять ненадёжность ИИ и противостоять ей. Однако их результаты обеспокоили экспертов: возможно, стоит пересмотреть текущие представления о безопасности ИИ.