Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Осторожно, фейк: в Telegram распространяют ложь о «выплатах 9 Мая»

В преддверии Дня Победы в Telegram начали распространяться фейковые новости о «новых социальных выплатах» для россиян. В сообщениях утверждается, что якобы принято решение о дополнительных мерах поддержки — дескать, каждому гражданину РФ полагается выплата от 38 925 рублей.

При этом, как пояснили специалисты компании F6, нигде не говорится о критериях нуждаемости, а выплаты «приурочены к 80-летию Победы».

Чтобы сделать фейк более убедительным, авторы таких постов советуют обратиться в «местное отделение соцзащиты» или пройти по ссылке и «ознакомиться с инструкцией».

Ссылка ведёт на телеграм-бота, где пользователю обещают 50 000 рублей. Но вместо этого его перенаправляют в другой канал — якобы инвестиционный, где предлагают вложить деньги и обещают огромную прибыль. При этом прямо в сообщениях указываются банковские карты, на которые нужно отправить «инвестиции».

По наблюдениям экспертов, такие каналы работают уже давно: большую часть времени они публикуют достоверные и безобидные новости о социальной поддержке, а затем — в канун крупных праздников вроде Нового года или 9 Мая — вбрасывают фейковые сообщения о выплатах.

 

В декабре 2024 года уже была подобная волна перед праздниками. Аудитория у таких каналов может достигать сотен тысяч подписчиков. Ни один из них не зарегистрирован в Роскомнадзоре как официальное СМИ.

Сценарий мошенничества с «выплатами» — один из самых популярных. Часто используется в преддверии праздников: 9 Мая, Нового года, 23 Февраля, 8 Марта, 1 сентября. Цель — привлечь внимание, заполучить данные пользователя и выманить у него деньги.

Как защитить себя:

  • Проверяйте информацию только через официальные источники — например, «Госуслуги» или МФЦ.
  • Не подписывайтесь на сомнительные телеграм-каналы — даже пассивная подписка даёт злоумышленникам информацию о вас.
  • Не переходите по ссылкам из подозрительных сообщений, особенно в мессенджерах и соцсетях.
  • Никому не передавайте свои персональные и банковские данные, пароли и коды из СМС.
  • Не переводите деньги незнакомым людям.
  • Прежде чем куда-то вкладывать средства, ищите отзывы — если это мошенничество, скорее всего, кто-то уже об этом написал.
  • Если сомневаетесь, проконсультируйтесь с человеком, которому доверяете.
AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru