Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Троян для кражи криптовалюты проник в App Store под видом криптокошельков

Даже App Store больше не выглядит безопасно, по крайней мере, если речь идёт о криптокошельках. Эксперты «Лаборатории Касперского» обнаружили в магазине Apple сразу несколько фальшивых приложений, которые маскируются под популярные сервисы и в итоге приводят пользователя к краже средств.

Злоумышленники размещают в App Store приложения, внешне максимально похожие на MetaMask, Trust Wallet, Ledger и другие известные криптокошельки.

Внутри ничего особо опасного: калькулятор, простая игра или менеджер задач. Всё это нужно лишь для одного — не вызвать подозрений и пройти модерацию.

Но дальше начинается самое интересное. После запуска такое приложение открывает в браузере страницу, стилизованную под App Store, где пользователю предлагают «правильно» скачать нужный кошелёк. На самом деле именно здесь и подсовывается троянизированная версия приложения.

Всего эксперты нашли 26 таких фейков. По косвенным признакам кампания работает как минимум с осени 2025 года и, вероятно, связана с уже известной активностью SparkKitty.

Дальше всё зависит от типа кошелька. Если речь о «горячем» (то есть приложении на смартфоне), зловред просто отслеживает момент создания или восстановления кошелька и перехватывает сид-фразу. Ввёл её — считай, отдал доступ ко всем средствам.

С «холодными» кошельками сложнее, но и тут злоумышленники нашли подход. Например, в случае с Ledger они имитируют «проверку безопасности» и просят пользователя ввести сид-фразу, хотя официальное приложение никогда этого не требует.

Интересно, что почти все обнаруженные приложения были доступны в китайском сегменте App Store. Это объясняется просто: официальных версий многих криптокошельков там нет, а значит, пользователи чаще ищут альтернативы. Но сами вредоносные механизмы не имеют региональных ограничений, так что схема потенциально может «переехать» и в другие страны.

В «Лаборатории Касперского» подчёркивают: сами по себе эти приложения не содержат вредоносного кода — они играют роль приманки. Основная атака разворачивается уже за пределами App Store, через фишинг и установку профиля разработчика. Этот механизм изначально предназначен для корпоративных приложений, но в руках злоумышленников превращается в удобный канал доставки зловреда.

RSS: Новости на портале Anti-Malware.ru