Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Опасный троян SparkCat снова пробрался в App Store и Google Play

Троян SparkCat снова вернулся в официальные магазины приложений. Эксперты «Лаборатории Касперского» сообщили, что обнаружили новый вариант этого зловреда в App Store и Google Play спустя примерно год после того, как его уже находили и удаляли оттуда.

На этот раз вредонос маскировался под вполне обычные приложения, которые не вызывают особых подозрений с первого взгляда: корпоративные мессенджеры и сервисы доставки еды.

А сценарий у операторов всё тот же: пользователь скачивает вроде бы безобидное приложение, а внутри оказывается троян, который охотится за данными пользователя.

Главная цель SparkCat — фотографии в галерее смартфона. Зловред в определённых сценариях запрашивает доступ к снимкам, после чего начинает анализировать текст на изображениях с помощью OCR. В первую очередь его интересуют фразы для восстановления доступа к криптокошелькам. Если троян находит что-то подходящее, изображение отправляется злоумышленникам.

По данным «Лаборатории Касперского», в App Store нашли два заражённых приложения, а в Google Play — одно. О находке сообщили Apple и Google, и в Google Play вредоносное приложение уже удалили. При этом проблема не ограничивается только официальными магазинами: приложения со SparkCat также распространяются через сторонние сайты. Некоторые из них, как отмечают исследователи, даже мимикрируют под App Store, если открыть их с iPhone.

Интересно, что обновлённые версии трояна по-разному ведут себя на Android и iPhone. На Android SparkCat ищет ключевые слова на японском, корейском и китайском языках, из-за чего исследователи предполагают, что эта часть кампании в первую очередь нацелена на пользователей в Азии. А вот iOS-версия ориентируется на мнемонические фразы криптокошельков на английском языке, так что здесь география потенциальных атак уже выглядит гораздо шире.

С технической точки зрения зловред тоже стал хитрее. В «Лаборатории Касперского» говорят, что новая Android-версия использует несколько уровней обфускации, в том числе виртуализацию кода и кросс-платформенные языки программирования. Для мобильного зловреда это уже довольно серьёзный уровень подготовки, который помогает ему дольше оставаться незамеченным и проходить проверки.

Как отметил эксперт по кибербезопасности Сергей Пузан, поведение нового образца очень похоже на первую версию SparkCat, поэтому есть основания полагать, что за обеими кампаниями стоят одни и те же разработчики. Его коллега Дмитрий Калинин добавил, что SparkCat продолжает эволюционировать и всё лучше обходит защитные механизмы официальных магазинов приложений.

RSS: Новости на портале Anti-Malware.ru