Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Перед Чёрной пятницей выросло число персонализированных атак на россиян

В преддверии «Чёрной пятницы» и сезона массовых распродаж Mail, «Лаборатория Касперского» и МегаФон предупредили о заметном росте мошеннической активности в цифровых каналах. По данным аналитиков Почты Mail и МегаФона, мошенники всё чаще отказываются от «веерных» рассылок и переходят к точечным, персонализированным атакам.

По данным Почты Mail, фишинговая активность выросла примерно на 10% по сравнению с прошлым годом. В лидерах остаются:

  • «розыгрыши от маркетплейсов»;
  • фейковые письма с реферальными ссылками;
  • страницы, имитирующие популярные интернет-магазины.

Специалисты отмечают, что мошенники активно сегментируют жертв и адаптируют сценарии обмана под конкретные группы пользователей. Это делает атаки более реалистичными и сложными для автоматической фильтрации.

По данным МегаФона, создатели фейковых страниц, которые маскируются под акции известных брендов, продолжают проявлять высокую активность. Однако количество заблокированных подозрительных звонков в октябре 2025 года снизилось более чем на 50% по сравнению с октябрём 2024-го.

При этом мошенники всё чаще используют сценарии, в которых жертву подталкивают самостоятельно выйти на связь — например, через «службу поддержки» или «оператора акции».

Аналитики «Лаборатории Касперского» сообщили, что число русскоязычных писем со ссылками на «чёрную пятницу» в октябре 2025 года выросло почти в девять раз по сравнению с тем же периодом 2024 года. Многие такие письма содержат фишинговые ссылки или скам-предложения.

По словам экспертов, злоумышленники активно меняют содержание писем, структуру текста и типы ссылок, чтобы обходить фильтры. Есть признаки, что в новых рассылках используются ИИ-инструменты.

Специалисты советуют пользователям внимательно относиться к письмам с акционными предложениями, не переходить по подозрительным ссылкам и не открывать вложения от неизвестных отправителей.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru