Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

В Telegram заявили о замедлении MAX, подтверждений не нашлось

В телеграм-каналах начала расходиться информация о том, что Роскомнадзор якобы решил постепенно блокировать мессенджер MAX из-за активности мошенников. В постах даже приводили якобы цитату ведомства о том, что «безопасность россиян превыше всего», а сам мессенджер называли «рассадником мошенничества и порнографии».

Однако эта информация не подтвердилась.

Как выяснилось, скриншот, который активно распространяли в соцсетях и Telegram, был связан с публикацией «Баймакского вестника».

В ней со ссылкой на заявление замначальника полиции Екатеринбурга Андрея Ершова действительно говорилось, что мошенники начали осваивать и MAX. Но ни о какой блокировке или замедлении работы мессенджера речи там не было.

На официальных ресурсах Роскомнадзора подобных заявлений также нет. Не публиковали такую информацию и СМИ.

Наоборот, 18 марта MAX получил статус социальной сети. Это означает, что теперь каналы с аудиторией более 10 тысяч подписчиков должны проходить регистрацию через специальный бот.

Таким образом, сообщения о том, что Роскомнадзор начал готовить блокировку MAX, оказались фейком. Судя по всему, реальную новость о появлении мошенников в новом канале связи просто дополнили вымышленными деталями и в таком виде она быстро разошлась по Telegram.

RSS: Новости на портале Anti-Malware.ru