Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Онлайн-заседание правительства Курской области сорвала DDoS-атака

Прямую трансляцию заседания правительства Курской области сорвала DDoS-атака на серверы администрации. Об этом сообщило само региональное правительство. При этом заседание всё же удалось показать в прямом эфире: трансляция была доступна на официальной странице во VK. Полную запись пообещали опубликовать позднее.

«В связи с DDoS-атакой на серверы администрации Курской области прямая трансляция заседания правительства региона невозможна. Запись заседания будет опубликована позднее на официальных ресурсах губернатора и правительства Курской области», – приводит РИА Новости выдержку из официального сообщения областной администрации, опубликованного утром.

Позднее, как уточнило правительство Курской области, целью атаки стал канал связи одного из магистральных операторов. После переключения на резервный канал работа ресурсов областного правительства была восстановлена.

В 2026 году Россия столкнулась с волной DDoS-атак с использованием беспрецедентного количества IP-адресов. Причём речь шла об атаках прикладного уровня L7, нацеленных не просто на то, чтобы «залить» сервисы мусорным трафиком, а на гарантированный вывод приложений из строя.

RSS: Новости на портале Anti-Malware.ru