Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Хостинг-провайдерам хотят запретить работать с VPN-сервисами

В России могут серьёзно усложнить жизнь не только VPN-сервисам, но и тем, кто даёт им инфраструктуру. Ко второму чтению законопроекта «Антифрод 2.0» подготовлены поправки, которые затрагивают хостинг-провайдеров.

Как выяснил «Коммерсант», компаниям могут запретить предоставлять серверы и вычислительные мощности тем, кто обеспечивает доступ к запрещённой информации. Под это определение потенциально подпадают и владельцы VPN-сервисов.

Если поправки примут, хостинг-провайдеры фактически перестанут быть просто «техническими посредниками». Им придётся самим проверять клиентов — сверять их с различными списками и отказывать в обслуживании тем, кто может нарушать требования.

И вот тут начинаются сложности. У многих компаний сейчас просто нет готовых инструментов и процессов, чтобы эффективно определять таких клиентов. А значит, переход на новую модель работы потребует дополнительных затрат — и времени, и денег.

На рынке уже предупреждают: всё это, скорее всего, скажется на ценах. Хостинг и так подорожал за последнее время более чем на 30% — из-за роста НДС и внедрения систем СОРМ. А новые требования могут добавить ещё один виток расходов.

Гендиректор хостинг-провайдера RUVDS Никита Цаплин считает, что интеграция с базами Роскомнадзора и необходимость отказывать части клиентов почти неизбежно приведут к дальнейшему росту стоимости услуг.

Напомним, сегодня пользователи начали замечать, что мобильное приложение «Госуслуг» больше не открывается при включённом VPN. Проблемы, по сообщениям пользователей, затронули и другие сервисы — например, «Яндекс Пэй».

RSS: Новости на портале Anti-Malware.ru