Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

«Аладдин» выпустил Aladdin 2FA без зависимости от App Store и Google Play

Российская компания «Аладдин» представила новую версию решения для двухфакторной аутентификации Aladdin 2FA, которая работает в формате Progressive Web Application (PWA). Главное новшество — теперь приложение не зависит от зарубежных магазинов приложений вроде App Store и Google Play.

Новый формат расширяет возможности JaCarta Authentication Server (JAS) — корпоративного сервера аутентификации, который используется для организации двухфакторной защиты в информационных системах и бизнес-приложениях.

В компании отмечают, что традиционная схема распространения мобильных приложений через магазины приложений несет определенные риски. Сервис может столкнуться с ограничениями, удалением из каталога или другими внешними факторами, которые влияют на доступность решения для пользователей.

В случае с PWA эти проблемы обходятся стороной. Приложение размещается непосредственно в инфраструктуре заказчика и запускается через веб-браузер. При этом для пользователя всё выглядит привычно: после установки на устройство Aladdin 2FA получает собственную иконку, работает как обычное мобильное приложение и поддерживает стандартные сценарии двухфакторной аутентификации.

Еще одно преимущество — универсальность. Решение работает на смартфонах, планшетах, ноутбуках и автоматизированных рабочих местах независимо от используемой аппаратной платформы.

Особый акцент разработчики делают на полном контроле со стороны организации. Все компоненты системы разворачиваются внутри инфраструктуры заказчика, а обновления распространяются централизованно вместе с серверной частью. Это избавляет ИТ-службы от необходимости публиковать новые версии через сторонние площадки и упрощает администрирование.

По словам менеджера по развитию бизнеса JMS/JAS/JIP компании «Аладдин» Станислава Винарского, новый формат делает двухфакторную аутентификацию по-настоящему независимой. Заказчики могут самостоятельно управлять размещением, обновлением и эксплуатацией решения, не полагаясь на зарубежные сервисы и внешние платформы.

На фоне растущего интереса российских компаний к технологическому суверенитету такой подход выглядит вполне логичным. Если раньше вопрос стоял в том, каким приложением пользоваться для двухфакторной аутентификации, то теперь всё чаще возникает другой: как сделать так, чтобы доступ к этому приложению не зависел от решений иностранных площадок.

RSS: Новости на портале Anti-Malware.ru