Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Apple закрыла более 50 уязвимостей в iOS 26.5

Apple выпустила крупный набор обновлений для своих устройств: iOS 26.5, iPadOS 26.5, macOS Tahoe 26.5, watchOS 26.5, tvOS 26.5 и visionOS 26.5. Помимо новых функций, в релизы вошли важные патчи.

Больше всего заплаток получила iOS 26.5: в заметках Apple упоминается более 50 закрытых уязвимостей.

Apple также выпустила обновления для старых версий ОС: iOS 18.7.9, iPadOS 18.7.9, iPadOS 17.7.11, iOS 16.7.16, iPadOS 16.7.16, iOS 15.8.8, iPadOS 15.8.8, macOS Sequoia 15.7.7 и macOS Sonoma 14.8.7.

В большинстве старых релизов патч всего один. Он связан с системой вывода уведомлений и не позволяет восстанавливать уже удалённые уведомления. Ранее этот патч появился в iOS 26.4.2.

Пользователям iPhone, iPad, Mac, Apple Watch, Apple TV и Vision Pro рекомендуется установить свежие версии ПО, особенно если устройство используется для работы, платежей или хранения важных данных.

Напомним, Apple также добавила в iOS 26.5 важное обновление для приложения «Сообщения»: RCS-переписки получили сквозное шифрование. RCS — это более современная замена СМС для обмена сообщениями между между iPhone и Android.

Благодаря этому стандарту в чатах работают функции, похожие на iMessage: более качественные фото и видео, индикаторы набора текста, отчёты о прочтении и другие привычные мелочи.

RSS: Новости на портале Anti-Malware.ru