Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Firefox 152 научился быстро отключать шумные вкладки через адресную строку

Mozilla выпустила Firefox 152, и в этот раз обновление оказалось заметно интереснее стандартного набора фиксов. Разработчики серьёзно переработали настройки браузера, добавили новые инструменты для приватности и упростили жизнь тем, кто регулярно открывает по несколько десятков вкладок одновременно.

Главное изменение — полностью обновлённый раздел настроек. В Mozilla обещают более понятную структуру, упрощённую навигацию и логичное распределение параметров по категориям. Идея простая: меньше блужданий по меню и быстрее доступ к нужным функциям.

Не забыли и про приватность. Теперь Firefox умеет автоматически предлагать временно ослабить защиту от трекеров для конкретного сайта, если из-за строгих настроек страница работает некорректно. Вместо поиска нужного переключателя в меню браузер сам покажет предложение перезагрузить сайт с более мягкими ограничениями.

 

Ещё одна любопытная функция пригодится тем, кто регулярно теряет источник неожиданного звука среди десятков вкладок. В адресной строке теперь можно ввести команды mute, shush или sssh, после чего Firefox мгновенно отключит звук во всех вкладках сразу.

Пользователи Windows и Linux получили возможность копировать ссылку на вкладку прямо из контекстного меню, не открывая страницу. Кроме того, в браузере появилась новая кнопка Send Tab, которую можно добавить на панель инструментов.

Расширились и возможности встроенного переводчика Firefox Translations. Браузер получил поддержку баскского и галисийского языков, а также новые словари проверки орфографии для турецкого, персидского, валлийского, хорватского, тамильского и грузинского языков.

Для любителей экспериментов Mozilla добавила в Firefox Labs поддержку JPEG XL — современного графического формата, который должен обеспечивать более эффективное сжатие изображений по сравнению с JPEG, PNG, GIF и даже WebP.

 

В список прочих изменений вошли улучшенная работа с PDF-файлами, более гибкое масштабирование страниц, доработки поддержки ключей доступа (passkey) через WebAuthn и новые возможности для веб-уведомлений.

Заодно Mozilla впервые опубликовала публичную дорожную карту Firefox, чтобы пользователи могли заранее видеть, какие функции готовятся к выходу в следующих версиях браузера.

RSS: Новости на портале Anti-Malware.ru