Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Более 50% компаний перекладывают непрерывность на ИТ, 20% имеют план

«Инфосистемы Джет» провела масштабное исследование практик восстановления после инцидентов и выяснила: большинство российских компаний относятся к киберустойчивости фрагментарно и чаще действуют по факту, а не по плану. Ключевая мысль исследования — сегодня именно инциденты информационной безопасности и крупные ИТ-сбои чаще всего прерывают бизнес-процессы.

При этом компании по-прежнему разделяют ответственность так, что получается разрыв между операциями и стратегией.

Основные выводы исследования:

  • Более половины компаний полностью возлагают заботу о непрерывности процессов на ИТ-отдел.
  • Только 20% организаций имеют согласованный с бизнесом план восстановления ИТ-инфраструктуры.
  • 37% полагаются исключительно на резервное копирование, а каждая пятая компания не защищает резервные копии дополнительно — это оставляет их уязвимыми.
  • Кризис-менеджмент преимущественно реактивный: команды действуют по мере возникновения проблем, а не по отработанным сценариям.
  • 70% организаций тестируют планы восстановления, но почти не моделируют реальные инциденты.
  • Лишь 40% готовы публично говорить о произошедших инцидентах, что мешает формированию прозрачной культуры киберустойчивости.

Исследование подчёркивает: базовых мер часто мало. Подразделения информационной безопасности фокусируются на защите периметра, ИТ — на восстановлении систем, но редко выстраивается сквозной, комплексный подход — от предотвращения инцидента до его отработки и анализа последствий. В результате у компании может быть «крепкий» периметр и надёжные бэкапы, но при этом игнорироваться защита критических контуров вроде СРК, а плохо настроенные процессы восстановления приводят к большим потерям даже при наличии отдельных сильных элементов.

Что нужно делать дальше:

  • Внедрять BIA (анализ влияния на бизнес), оценку рисков и регулярное тестирование планов восстановления.
  • Переходить от реактивного реагирования к отработанным сценариям и моделированию реальных инцидентов.
  • Защищать резервные копии отдельно и вводить лимиты/контроли на их доступ.
  • Вовлекать весь бизнес: киберустойчивость — это не только задача службы ИБ или ИТ, это общая ответственность ИТ-отдела, бизнеса, финансов, HR и руководства.
  • Стремиться к антихрупкости — архитектуре и процессам, которые не просто выдерживают удар, но учатся и укрепляются после инцидента.

«Главное отличие компаний, которые быстро восстанавливаются после кибератаки, — они готовились заранее», — говорит Андрей Янкин, директор центра информационной безопасности «Инфосистемы Джет». «Почти никогда не получается восстановиться с первого раза, если это ни разу не отрабатывалось на практике. Нужно проводить учения, моделировать атаки, проверять коммуникации и распределение ролей. И самое важное — вовлечённость всей компании: киберустойчивость невозможна, если в ней участвует только служба ИБ».

В итоге исследование показывает, что переход от точечных мер к стратегическому, системному подходу — не прихоть, а необходимость. Компании, которые начнут системно оценивать риски, тестировать сценарии и вовлекать все подразделения, будут восстанавливаться быстрее и получать меньше ущерба от будущих инцидентов.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru