Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

ARinteg представила Мастер ПДн для подготовки компаний к проверкам

Компания ARinteg представила новое решение «Мастер ПДн» для автоматизации процессов, связанных с обработкой и защитой персональных данных. Тема ПДн остаётся одной из самых болезненных для бизнеса: утечки продолжаются, а штрафы за нарушения с мая 2025 года заметно выросли.

Пока рынок только адаптируется к новым требованиям, но во второй половине 2026 года ситуация может стать жёстче, особенно если регуляторы начнут активнее применять новые санкции.

«Мастер ПДн» предназначен для подготовки документов, необходимых при обработке персональных данных. Решение работает с разными системами кадрового учёта и помогает выстроить документацию вокруг процессов обработки ПДн — именно такой подход требуется регулятором.

По словам заместителя технического директора по консалтингу и аудиту ARinteg Олега Нестеровского, компаниям важно не просто формально подготовить документы, а собрать доказательную базу того, что они выполнили требования закона по защите персональных данных.

Новый продукт стал развитием уже существующего у ARinteg решения — модуля УПДн, совместимого с 1С:ЗУП. «Мастер ПДн» расширяет его возможности и позволяет автоматически формировать номенклатуру согласий для каждого субъекта ПДн с учётом целей обработки.

Также решение генерирует набор согласий для сотрудников в зависимости от их должностных обязанностей: на обработку, передачу и распространение персональных данных. Кроме того, с его помощью можно подготовить организационно-распорядительные документы с учётом последних изменений в законодательстве.

Среди основных функций «Мастера ПДн» — учёт процессов обработки персональных данных, ведение перечня обрабатываемых ПДн, определение уровней защищённости ИСПДн, а также подготовка документов по обработке и защите данных.

В ARinteg заявляют, что решение может сократить время подготовки регламентной документации до 90%. Для компаний это означает меньше ручной работы для юристов, кадровиков и специалистов по информационной безопасности при подготовке к проверкам регуляторов.

RSS: Новости на портале Anti-Malware.ru