Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Геотрекинг детских симок в России будет доступен родителям без решения суда

В Минцифры РФ принято решение о введении в оборот специальных сим-карт для детей до 14 лет. Такие симки будут оформляться с согласия родителей и позволят им отслеживать местоположение своих отпрысков без подачи заявления в суд.

Выступая на межрегиональном форуме поисково-спасательного отряда «ЛизаАлерт», глава Минцифры Максут Шадаев обмолвился о подготовке нового законопроекта, призванного закрепить возможность внесудебного доступа к геотрекам в случае ЧС.

В получении такой информации от операторов связи по упрощенной процедуре, без обращения в суд заинтересованы не только спасотряды, но также родственники пропавших (когда новый механизм заработает, пожилые люди смогут назначать доверенных лиц через Госуслуги) и родители несовершеннолетних граждан.

В этой связи Мнцифры вновь подняло вопрос о введении в оборот целевых симок для детей. Как оказалось, положительное решение в министерстве уже принято.

«Речь о том, что дети должны будут получать специальным образом оформленные сим-карты, — цитирует «Российская газета» выступление Шадаева. — Понятно, что они будут оформляться с согласия родителей. По таким сим-картам родители всегда будут иметь возможность получать геотреки по запросу без судебных решений. Нам кажется, это тоже очень важная вещь, если ребенок потерялся и важна каждая минута».

В России также планируется ввести новые правила, которые обязывают родителей уведомлять оператора связи об использовании сим-карты ребенком. Такая информация будет аккумулироваться в ГИС КСИМ, созданной на базе информационного ресурса Роскомнадзора для мониторинга выполнения операторами обязанности по блокировке симок при превышении абонентом лимита (с 1 ноября — максимум 20 номеров на нос).

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru