Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

На Standoff 17 впервые полностью обесточили виртуальное государство

На кибербитве Standoff 17 произошло то, чего за десять лет существования соревнований еще не было. Сразу две команды атакующих смогли полностью отключить энергосистему виртуального Государства F, погрузив цифровую страну во тьму. Соревнования прошли с 16 по 19 июня в московском Кибердоме и собрали 23 команды белых хакеров из России, Казахстана, Монголии, Вьетнама, Индонезии и Нидерландов.

За несколько дней участники реализовали 245 критических событий на киберполигоне, который имитировал инфраструктуру сразу семи отраслей экономики.

Главной сенсацией стала атака команды Dataeli&only_f4st. Хакеры за 20 шагов вывели из строя все электроподстанции виртуального государства. Позже тот же сценарий смогла повторить команда cR4.sh. Для Standoff это исторический результат — раньше подобный масштабный блэкаут никому не удавался.

Самой атакуемой отраслью оказался телеком. Здесь зафиксировали 74 критических события, включая все девять уникальных сценариев атак. А вот ритейл, наоборот, интересовал атакующих заметно меньше — всего семь успешных инцидентов.

Победителем Standoff 17 стала российская команда DreamTeam. В первую пятерку также вошли cR4.sh, FR13NDS & RHACKERS, Cyb7rC0d3# и Dataeli&only_f4st. Общий призовой фонд соревнований составил 50 тысяч долларов.

На стороне защитников выступали девять команд. За время кибербитвы они выявили 551 инцидент, причем 54 из них были обнаружены непосредственно в процессе отражения атак. Лучший результат по количеству обнаруженных инцидентов показала команда ReKad Team, защищавшая железнодорожную инфраструктуру.

Одной из главных новинок Standoff 17 стала цифровая копия инфраструктуры сети «Вкусно — и точка». Атакующим предложили реализовать девять критических сценариев — от создания фальшивых заказов до захвата административных учетных записей. Однако здесь хакеры остались ни с чем: ни одну из поставленных целей выполнить не удалось.

Еще одной важной темой мероприятия стали открытые кибериспытания. Т-Банк объявил о запуске программы, в рамках которой исследователям безопасности предложат до 12 млн рублей за реализацию одного недопустимого события в корпоративной инфраструктуре.

RSS: Новости на портале Anti-Malware.ru