Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Украли iPhone? Apple советует не светить контакты на экране

Apple обновила рекомендации для владельцев украденных iPhone и добавила неожиданное предупреждение. Если смартфон именно украли, а не потеряли, оставлять на экране блокировки свои контакты не стоит. Раньше компания советовала указывать номер телефона или другое средство связи в режиме пропажи (Lost Mode), чтобы нашедший устройство мог вернуть его владельцу.

Теперь Apple уточняет: этот совет подходит только для потерянных гаджетов. Если же речь идет о краже, контактные данные могут сыграть против владельца.

В корпорации объясняют, что злоумышленники всё чаще используют методы социальной инженерии. Получив номер телефона жертвы, вор может позвонить от имени Apple, мобильного оператора или службы поддержки и попытаться выманить данные для доступа к аккаунту Apple ID.

Apple также напоминает о другой распространенной ошибке. После кражи нельзя удалять устройство из сервиса Find My («Локатор»).

Пока iPhone привязан к аккаунту владельца, действует блокировка активации. Она не позволяет злоумышленнику просто сбросить устройство и перепродать его как новый смартфон. Если удалить аппарат из Find My, этот защитный механизм перестанет работать.

Еще одна рекомендация — как можно быстрее перевести устройство в режим пропажи. В Apple подчеркивают, что функция Stolen Device Protection («Защита украденного устройства») действует ограниченное время и не заменяет Lost Mode.

Купертиновцы также раскрыли одну из популярных схем краж. Мошенник предлагает сфотографировать компанию друзей на чужой iPhone. Пока телефон находится у него в руках, он зажимает кнопки питания и громкости, временно отключая Face ID.

После этого владелец вынужден разблокировать устройство кодом, который злоумышленник может подсмотреть. Остается лишь дождаться удобного момента для кражи смартфона.

RSS: Новости на портале Anti-Malware.ru