В МГУ разработали систему проверки защищённости ИИ-продуктов

В МГУ разработали систему проверки защищённости ИИ-продуктов

В МГУ разработали систему проверки защищённости ИИ-продуктов

Сотрудники Центра компетенций Национальной технологической инициативы (ЦК НТИ) по большим данным, действующего на базе МГУ, разработали решение для проверки устойчивости ИИ-систем к кибератакам.

Как выяснил RT, платформа предоставляет возможность загрузки моделей машинного обучения в облако, где они в автоматическом режиме проходят тестирование. На выходе пользователь получает не только оценку, но также дообученный вариант, способный исправно работать в условиях различных внешних воздействий и изменений.

Созданное в МГУ решение пригодно для проверки любых систем, построенных на основе нейросетевых языковых моделей. Авторы считают, что их разработка окажется особенно полезной в применении к автопилотам грузовых автомобилей и поездов, системам идентификации по фото, видео, голосу, а также системам распознавания текста в аудиосообщениях: такие ИИ-помощники наиболее часто подвергаются кибератакам.

Команда ЦК НТИ создала прототип сервиса проверки и уже работает с рядом крупных российских клиентов над повышением устойчивости их ИИ-продуктов.

«В последние годы с активным внедрением систем ИИ в повседневную жизнь — например, голосовых банковских помощников, автопилотов, сервисов медицинской диагностики, систем идентификации на транспорте — стало понятно, что тематика устойчивости к атакам скоро станет очень востребована», — отметил Денис Гамаюнов, доцент факультета ВМК МГУ.

По мнению эксперта, в ближайшие годы рынок средств защиты систем ИИ возрастет в несколько раз.

«Безусловно, защита серверов, на которых запущен код ИИ, важна, но злоумышленникам интереснее скорее нарушить, а не прекратить его работу, чтобы тот выдавал некорректные решения, — комментирует Сергей Полунин, руководитель группы защиты инфраструктурных ИТ-решений компании «Газинформсервис». — Например, если хакеры доберутся до обучающей выборки и сумеют добавить в нее свои объекты, то обученная на такой выборке модель будет ошибаться и выдавать неправильные результаты».

Исследователи взломали защиту Apple Intelligence через инъекцию промпта

Исследователи рассказали о недавно пропатченной уязвимости в Apple Intelligence, которая позволяла обходить встроенные ограничения и заставлять локальную языковую модель выполнять действия по сценарию атакующего.

Подробности атаки описаны сразу в двух публикациях. По словам авторов исследования, им удалось объединить две техники атаки и через инъекцию промпта добиться выполнения вредоносных инструкций на устройстве.

Как объясняют специалисты, запрос пользователя сначала проходит через входной фильтр, который должен отсекать опасный контент. Если всё выглядит безопасно, запрос отправляется в саму модель, а затем уже готовый ответ проверяет выходной фильтр. Если система замечает что-то подозрительное, вызов API просто завершается с ошибкой.

Чтобы обойти эту схему, исследователи собрали эксплойт из двух частей. Сначала они использовали строку с вредоносным содержимым в перевёрнутом виде и добавляли Unicode-символ RIGHT-TO-LEFT OVERRIDE. За счёт этого на экране текст отображался нормально, а вот в «сыром» виде для фильтров оставался перевёрнутым. Это помогало пройти проверку на входе и выходе.

 

Второй частью цепочки стала техника Neural Exec. По сути, это способ подменить или переопределить исходные инструкции модели так, чтобы она начала следовать уже командам атакующего, а не базовым системным ограничениям.

В итоге первая техника позволяла обмануть фильтры, а вторая — заставляла модель вести себя не так, как задумано. Для проверки исследователи прогнали 100 случайных сценариев, комбинируя системные промпты, вредоносные строки и внешне безобидные тексты, например фрагменты из статей Wikipedia. В этих тестах успешность атаки составила 76%.

О проблеме Apple уведомили ещё в октябре 2025 года. С тех пор компания усилила защитные механизмы, а патчи вошли в состав iOS 26.4 и macOS 26.4.

RSS: Новости на портале Anti-Malware.ru