Легко взламываемые модели ИИ показывают, что меры защиты не работают

Вероника Дубровская 21 Мая 2024 - 20:31

...

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ.

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Следующая главная новость »

Secrets Management 2026: где на самом деле сливаются ключи? Регистрируйтесь на эфир AM Live!

Татьяна Никитина 13 Февраля 2026 - 19:00

Ботнет Трояны Домашние пользователи Государство

Предполагаемый ботовод IcedID инсценировал свою смерть — не помогло

Украинец, разыскиваемый ФБР по делу о распространении трояна IcedID, попытался избежать экстрадиции в США, подкупив полицейских, чтобы те помогли ему попасть в списки умерших. Трюк сработал, но ненадолго.

Как пишет Cybernews со ссылкой на украинский Реестр исполнительных производств, хитрец допустил ошибку: после регистрации смерти киевским ЗАГС (по подложным документам) он остался в Ужгороде, по месту постоянной прописки, и в итоге был пойман.

Как выяснилось, оборотням в погонах удалось выдать за благодетеля безвестный труп, подменив идентификационные данные. Перед этим заказчик предусмотрительно переписал все свое имущество на родственников и знакомых.

Его опасения были не напрасны: через месяц стало известно об успехе Operation Endgame, очередного международного похода против ботнетов, созданных на основе особо агрессивных зловредов, в том числе банковского трояна IcedID.

Поиск подозреваемого после его мнимой смерти был прекращен, однако украинец в итоге чем-то привлек внимание правоохраны. Дело было вновь открыто, к повторному изучению свидетельств, раздобытых Интерполом и ФБР, были привлечены сторонние криминалисты и аналитики, и в итоге следствие пришло к выводу, что фигурант жив.

Триумфальное задержание произошло в конце 2025 года, однако обманщик даже тогда попытался выдать себя за другое лицо, предъявив фальшивые документы.

На его дом, автомобили и парковки наложен арест. Ввиду вероятности побега подозреваемого суд определил размер залога как $9,3 миллиона.

Secrets Management 2026: где на самом деле сливаются ключи? Регистрируйтесь на эфир AM Live!