Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Минэк России беспокоит несовершенство регулирования работы с ИИ

Выступая на проходящем в Москве форуме ЦИФРАПРАВА, директор департамента цифрового развития и экономики данных Минэкономразвития РФ Владимир Волошин поднял вопрос о проблемах внедрения и коммерческого использования ИИ.

Внедрение ИИ в повседневные сервисы, по словам спикера, не всегда оправданно и может создать дополнительные сложности для пользователей.

«Звонишь в клинику и минут десять пытаешься доказать, что ты человек и что тебе нужен человек», — цитирует РБК выступление представителя министерства.

В качестве примера Волошин также привел инцидент с беспилотным авто в Санкт-Петербурге, спровоцировавшим легкое ДТП: его разбор потребовал созыва специальной комиссии. К слову, похожий случай недавно произошел в Калифорнии — полицейские не смогли выписать тикет за нарушение ПДД, так как в машине не оказалось водителя.

Проблема, способная затормозить развитие ИИ-технологий в стране, требует корректировок на законодательном уровне, считает докладчик. Из-за несовершенства регулирования сферы ИИ российские бизнесмены почти не используют большие языковые модели, опасаясь возможной кары за нарушение требований ИБ.

Для исправления ситуации представитель Минэка предложил создать экспериментальные правовые режимы, позволяющие бизнес-структурам апробировать методы обезличивания данных и работать с большими моделями в безопасной регуляторной среде.

Минпромторг тоже выступает за совершенствование регулирования сферы ИИ и даже разработал проект универсального законодательного акта. А в Госдуме создали межфракционную рабочую группу для выработки принципов регулирования ИИ, предложений по отраслевому применению таких технологий и по противодействию злоупотреблениям ИИ.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru