Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Новый macOS-вредонос с подписью Apple Developer заменяет Ledger Live

Специалисты из Jamf Threat Labs нашли новый вариант вредоносной программы для macOS, которая умудрилась пройти все защитные механизмы Apple — она была и подписана, и заверена с использованием настоящего сертификата Apple Developer.

Вредонос назывался Gmeet_updater.app и притворялся обновлением для Google Meet. Распространялся через .dmg-файл — это классика для macOS.

Несмотря на то что приложение было «официально одобрено» Apple, для запуска всё равно использовалась социальная инженерия: жертве нужно было кликнуть правой кнопкой мыши и выбрать «Открыть» — обход Gatekeeper для неподписанных приложений, только тут подпись как бы была.

Программа запускала некое SwiftUI-приложение с названием «Technician Panel» — якобы для отвода глаз, а параллельно связывалась с удалённым сервером и подтягивала дополнительные вредоносные скрипты.

Что делает этот инфостилер:

  • ворует пароли из браузеров (Safari, Chrome, Firefox, Brave, Opera, Waterfox);
  • вытаскивает текстовые файлы, PDF, ключи, кошельки и заметки Apple;
  • охотится за криптокошельками (Electrum, Exodus, Atomic, Ledger Live);
  • делает слепок системы с помощью system_profiler;
  • заменяет приложение Ledger Live на модифицированную и не подписанную версию с сервера злоумышленника;
  • отправляет всё украденное на хардкоденный сервер hxxp[:]//45.146.130.131/log.

Кроме кражи, вредонос умеет задерживаться в системе: прописывает себя в LaunchDaemons, создаёт скрытые конфиги и использует второй этап атаки — постоянный AppleScript, который «слушает» команды с сервера злоумышленника. Среди них — выполнение shell-скриптов, запуск SOCKS5-прокси и самоуничтожение.

Вишенка на торте — базовая защита от анализа. Если вирус понимает, что его крутят в песочнице, он «молча» прекращает активность и в системе появляется фиктивный демон с аргументом Black Listed.

Jamf выяснили, что сертификат разработчика с ID A2FTSWF4A2 уже использовался минимум в трёх вредоносах. Они сообщили об этом Apple — и сертификат аннулировали. Но осадочек, как говорится, остался: зловред вполне мог обойти все базовые фильтры macOS.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru