Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Совещание в Минцифры уже аукается рынку: часть ИТ-проектов приостановлена

После совещания в Минцифры часть ИТ-компаний начала ставить некоторые проекты на паузу. одна из причин — неопределённость вокруг будущих ограничений на использование VPN и списка сервисов, которые могут попасть под запрет.

Как сообщает телеграм-канал «Время госзакупок» со ссылкой на источник в отрасли, проблема затрагивает не только частный рынок, но и довольно чувствительные для государства процессы.

Речь, в частности, идёт о проектах, связанных с переходом на отечественное ПО и модернизацией критической информационной инфраструктуры. Ситуация осложняется тем, что даже крупные ИТ-компании нередко привлекают senior-специалистов, находящихся за рубежом. Если доступ к привычным инструментам удалённой работы начнёт сбоить, это может заметно замедлить такие проекты.

Под ударом оказываются и госзаказы. В эти цепочки вовлечено много небольших ИТ-компаний и субподрядчиков, и часть из них уже предупредила заказчиков, что временно приостанавливает работы, пока не станет понятнее, как именно будут действовать ограничения и какие VPN-сервисы окажутся вне закона.

Интересно, что сама идея блокировать VPN на крупных интернет-площадках выглядит куда сложнее, чем может показаться на бумаге, отмечают специалисты. Главная проблема — как отличить пользователя, который действительно заходит через средство обхода блокировок, от человека, который просто подключается из другой страны или использует корпоративный VPN.

Один из самых простых вариантов, о которых говорят специалисты, — вообще не пускать пользователей, заходящих из-за рубежа. Но это, мягко говоря, слишком грубое решение. Более реалистичный сценарий — использование скоринговых моделей, которые будут оценивать множество параметров: IP-адрес, язык устройства, настройки региона, поведение пользователя и другие косвенные признаки.

Звучит технологично, но на практике всё не так красиво: для такой схемы нужно собирать и анализировать большой объём данных, а это требует серьёзных вычислительных мощностей, дополнительных команд разработки и постоянной поддержки. К тому же риск ложных срабатываний здесь очень высокий. Проще говоря, под раздачу могут попасть и вполне легальные пользователи.

Напомним, Минцифры попросило крупнейшие российские цифровые платформы — от «Яндекса» и VK до маркетплейсов, онлайн-кинотеатров и сервисов объявлений — подключиться к ограничению VPN с середины апреля. Если компании не согласятся, они, по данным издания, рискуют лишиться аккредитации Минцифры.

RSS: Новости на портале Anti-Malware.ru