Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

В России разработали способ удалить свой биометрический след

В ИТ-компании «Криптонит» (входит в «ИКС Холдинг») разработали метод, который позволяет выборочно удалять цифровые образы людей из систем распознавания лиц. Если совсем просто, речь идёт о технологии, которая должна помочь реализовать право человека отозвать согласие на обработку своей биометрии — так, чтобы система действительно перестала его узнавать.

Проблема тут в том, что современные системы распознавания лиц устроены не так прямолинейно, как может показаться.

Даже если сведения о человеке формально удалили из базы, его цифровой образ может всё равно остаться внутри уже обученной модели. То есть на бумаге данные вроде бы стерли, а на практике алгоритм всё ещё способен узнать этого человека.

Именно это и делает тему особенно чувствительной. С биометрией всё сложнее, чем с обычными персональными данными: пароль можно поменять, а лицо — нет. Если такие данные утекают, риски уже совсем другого уровня, потому что украденные цифровые слепки можно использовать для создания поддельных образов и обхода биометрической аутентификации.

 

В «Криптоните» утверждают, что их метод решает задачу не маскировкой и не косметическим удалением, а на уровне внутренней логики самой модели. Проще говоря, алгоритм перестаёт использовать сведения о конкретном человеке и больше не может его распознавать, при этом способность узнавать остальных людей сохраняется.

По словам разработчиков, на тестовых наборах данных технология показала заметное снижение эффективности распознавания именно тех лиц, которые нужно «забыть», — до 88%. При этом общая точность системы, как утверждается, осталась на прежнем уровне.

Практическое применение у такого подхода вполне очевидное. В первую очередь это системы видеонаблюдения с распознаванием лиц, СКУД и корпоративная безопасность. Например, технология может пригодиться для удаления биометрических данных уволенных сотрудников, когда компания обязана прекратить их обработку, но не хочет при этом заново переобучать всю систему с нуля.

RSS: Новости на портале Anti-Malware.ru