Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Ограбление Лувра за восемь минут: система охраны имела пароль «Louvre»

В Париже расследуют одно из самых дерзких ограблений последних лет — из музея Лувр украли королевские украшения, которым несколько веков. Ценности до сих пор не найдены, а подробности случившегося больше напоминают сюжет фильма, чем реальную историю. Как выяснилось, пароль от системы видеонаблюдения музея был… «Louvre».

Об этом сообщает французская газета Libération со ссылкой на PCGamer. Ещё в 2014 году аудит, проведённый Национальным агентством кибербезопасности Франции, указал на эту уязвимость.

Позднейшие проверки выявили и другие проблемы — устаревшее программное обеспечение, которому уже больше 20 лет, и недостаточно защищённые входы на крышу во время строительных работ.

Само ограбление произошло утром в воскресенье, около 9:30 по местному времени, прямо во время работы музея. По данным полиции, четверо злоумышленников подъехали к зданию на небольшом грузовике с лестницей, прорезали стену на втором этаже и проникли в галерею.

Они угрожали охране и посетителям, но никто не пострадал. Через четыре минуты грабители покинули здание и скрылись в Париже. Вся операция заняла восемь минут.

Полиция уже задержала нескольких подозреваемых, четверым предъявлены обвинения. Однако похищенные украшения, стоимость которых оценивается в десятки миллионов долларов, пока не найдены.

Лувр, несмотря на свою репутацию одной из самых охраняемых галерей в мире, не впервые становится целью грабителей. Самый известный случай произошёл в 1911 году, когда украли «Мону Лизу». Последнее подобное ограбление случилось в 1998 году — и вот, спустя почти тридцать лет, история повторилась.

Эксперты отмечают, что трагикомичная деталь с паролем «Louvre» наглядно показывает: информационная безопасность может быть не менее важна, чем сигнализация и замки.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru