Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Ювелирка по акции: перед праздниками расплодились фишинговые сайты

Перед праздниками мошенники массово запускают фишинговые сайты, замаскированные под ювелирные магазины. Специалисты BI.ZONE Digital Risk Protection говорят, что только за февраль нашли около 30 таких доменов, причём многие из них выглядят так, будто сделаны по одному и тому же шаблону: одинаковое оформление, похожие названия, минимальные отличия в адресах.

По оценке экспертов, всплеск вполне логичный: в конце зимы и начале весны подарки покупают чаще обычного. И если в феврале насчитали почти три десятка мошеннических сайтов, в начале марта их может стать ещё больше.

Схема довольно простая и рассчитана на то, чтобы человек оставил максимум данных. «Магазин» устроен так, что без заполнения формы заказ просто не оформить: просят Ф. И. О., телефон, адрес и имейл. Дальше, как предполагают в BI.ZONE, всё может перейти в классический сценарий «давайте уточним оплату»: с жертвой связываются и под разными предлогами пытаются вытянуть уже банковские данные — например, номер карты.

Руководитель BI.ZONE Digital Risk Protection Дмитрий Кирюшкин обращает внимание на любопытную деталь: эти сайты часто стартуют с английского языка и цен в долларах, но при этом позволяют быстро переключиться на русский и рубли.

При этом домены находятся в российской зоне. Вероятно, расчёт на психологию: «иностранный» магазин кажется более привлекательным, ассортимент — необычным, а скидки и акции подталкивают быстрее нажать «оформить заказ» и не разглядывать мелочи.

Самый рабочий способ не попасться здесь всё тот же: не лениться проверять адрес сайта и заходить за покупками на официальные ресурсы или крупные проверенные площадки. У фишинга часто всё держится на невнимательности: домен отличается от настоящего буквально одним символом, и именно на это мошенники и надеются.

Напомним, пару дней назад мы писали, что злоумышленники запустили массовую рассылку опасных «праздничных» открыток к 8 марта. В них скрыты фишинговые ссылки на ресурсы, распространяющие зловред или собирающие персональные данные. Рассылки идут через мессенджеры и социальные сети.

Кроме того, F6 и RuStore подготовили список наиболее распространенных мошеннических схем в преддверии 8 марта. По их оценке, около 94% таких инцидентов связаны с использованием социальной инженерии.

RSS: Новости на портале Anti-Malware.ru