Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

В R-Vision SIEM 2.5 появился раздел «Покрытие MITRE ATT&CK»

Компания R-Vision выпустила версию R-Vision SIEM 2.5 — систему управления событиями информационной безопасности. Релиз отмечается нововведениями, направленными на улучшение аналитики, автоматизацию реагирования и повышение удобства работы SOC-команд.

Главное новшество — раздел «Покрытие MITRE ATT&CK», который показывает, какие техники и подтехники фреймворка уже покрываются существующими правилами детектирования.

Это помогает специалистам быстро понять, какие угрозы система распознаёт, а какие требуют доработки.

В R-Vision SIEM также появилась возможность управлять конечными устройствами напрямую — выполнять действия активного реагирования, например:

  • удалять подозрительные файлы;
  • изолировать заражённый узел;
  • останавливать процессы;
  • блокировать домены и IP-адреса через добавление записей в hosts (техника DNS Sinkholing).

Такие функции упрощают оперативное реагирование и позволяют аналитикам моментально пресекать угрозы без переключения между системами.

Обновление также затронуло пользовательский интерфейс и работу с событиями. Теперь можно:

  • добавлять события в «Избранное», чтобы собирать все ключевые артефакты расследования в одном месте;
  • сравнивать события построчно, чтобы видеть различия между текущим и эталонным инцидентом;
  • создавать виджеты прямо из поиска и сразу визуализировать результаты.

Кроме того, дашборды теперь поддерживают переменные — достаточно изменить одно значение, чтобы обновился весь отчёт, что заметно ускоряет анализ.

В новой версии реализована обновлённая модель событий, основанная на принципе «субъект–объект». Она делает данные более понятными и единообразными для аналитиков и инженеров. Появилась поддержка динамических полей с JSON-структурами, к которым можно обращаться напрямую через RQL-запросы.

Другие улучшения:

  • Поддержка сбора событий по FTP и SMB.
  • Аудит изменений активных списков, включая действия пользователей и правил корреляции.
  • Определение источников событий по маске, без привязки к конкретным точкам входа.

Как отмечают разработчики, новая версия делает SIEM более удобным инструментом для оперативного анализа и реагирования, когда аналитик может не только видеть картину событий, но и сразу действовать.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru