Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Заказчики Solar webProxy в Беларуси смогут быстрее получать новые версии

ГК «Солар» сообщила, что её система фильтрации и контроля веб-трафика Solar webProxy теперь сможет обновляться для белорусских заказчиков без прежних задержек, связанных с сертификацией. Это стало возможно благодаря изменённому подходу к подтверждению соответствия в Оперативно-аналитическом центре при Президенте Республики Беларусь.

Если раньше фактически приходилось отдельно проходить подтверждение для каждой новой версии продукта, то теперь последующие релизы будут автоматически получать одобрение регулятора.

На практике это значит, что белорусские клиенты смогут быстрее получать новые функции и обновления — без паузы между выходом версии и её допустимым использованием.

В первую очередь это касается организаций, для которых требования регулятора особенно чувствительны: госструктур, финансового сектора и объектов критической инфраструктуры.

Сам продукт относится к классу Secure Web Gateway. Такие системы используются для контроля веб-трафика, ограничения доступа к нежелательным ресурсам, защиты от фишинга и более тонкой настройки интернет-доступа для сотрудников. В случае Solar webProxy отдельно подчёркивается и контроль работы с публичными ИИ-сервисами — например, ChatGPT и Gemini.

Эта тема сейчас выглядит вполне актуально и для белорусского рынка. По приведённым в сообщении данным, всё больше компаний используют нейросети в повседневной работе — для маркетинга, аналитики, обучения и клиентского сервиса. Одновременно растёт и тревога вокруг утечек данных: сотрудники могут загружать в публичные ИИ-сервисы внутренние документы, отчёты, фрагменты исходного кода и другую чувствительную информацию.

На этом фоне решения класса SWG становятся не просто инструментом фильтрации трафика, а способом хотя бы частично контролировать, куда именно уходит корпоративная информация и какие внешние сервисы используют сотрудники.

В компании также сообщили, что сертификат подтверждает соответствие Solar webProxy требованиям технического регламента ТР 2013/027/BY и позволяет использовать продукт в автоматизированных системах 2 и 3 класса защищённости.

Solar webProxy стала уже третьим решением «Солара», сертифицированным в Беларуси. Ранее аналогичную процедуру прошли Solar inRights и Solar Dozor.

RSS: Новости на портале Anti-Malware.ru