Эксперты разработали несколько стратегий защиты моделей ИИ

Эксперты разработали несколько стратегий защиты моделей ИИ

Эксперты разработали несколько стратегий защиты моделей ИИ

Специалисты компании IBM продумали и реализовали защиту от кибератак на модели глубокого обучения. Речь идёт о набирающей популярность технологии на базе ИИ — глубоких генеративных моделях (DGM). DGM позволяют синтезировать данные из сложных массивов.

Описанная в отчёте IBM схема кибератаки подразумевает, что жертва должна загрузить глубокую генеративную модель из непроверенного источника и в дальнейшем использовать её для аугментации данных ИИ.

Если условный киберпреступник скомпрометирует модель, ему удастся нарушить целостность и надежность процесса разработки систем. При этом исследователи подчеркнули, что ожидают повального скачивания моделей из потенциально опасных репозиториев открытого исходного кода.

 

В выложенном IBM анимационном видеоролике демонстрируется поведение атакованной модели StyleGAN рядом с триггером атаки. Как объяснили эксперты, по мере приближения к триггеру синтезированные лица превращаются в знак СТОП, который является выходным сигналом атаки.

 

Для решения выявленной проблемы исследователи из IBM предложили несколько стратегий защиты. Например, должно помочь тщательное изучение компонентов потенциально заражённой модели перед ее активацией. Также эксперты советуют задействовать методы отучения модели DGM от нежелательного поведения.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

ИИ-помощник Claude провел для шпионов 30 атак, несколько — с успехом

Зафиксирован первый случай злоупотребления ИИ для почти полной (на 80-90%) автоматизации шпионских атак на госструктуры и крупные компании. Суммарно с помощью Claude было атаковано около 30 целей; в нескольких случаях взлом завершился успехом.

Инициатором необычной кампании, по данным Anthropic, являлась китайская APT-группа, идентифицируемая как GTG-1002. Мишени для проведения атак ее участники выбирали сами; их интересовали секреты госсектора, ИТ, финансовой сферы и химической промышленности.

Операторы ИИ-дирижера в ходе каждой многоступенчатой атаки вмешивались лишь 4-6 раз — когда надо было принять стратегическое решение по результатам выполнения задач агентскими Claude.

Эти исполнители определяли площадь атаки, сканировали целевую инфраструктуру в поисках уязвимостей, разрабатывали способы их использования и эксплойт-коды, воровали учетки и проверяли их дееспособность, собирали конфиденциальные данные.

Дискретные задачи ставились компонентам ИИ с тщательной формулировкой промптов и без раскрытия контекста, который бы мог выдать недобрые намерения.

 

Обнаружив атаки с использованием ее продукта, Anthropic запустила расследование, определила масштабы вредоносных операций и по итогам заблокировала ассоциированные аккаунты, а также уведомила потенциальных жертв и правоохранительные органы.

К счастью, в новой бочке дегтя присутствовала ложка меда: из-за склонности в галлюцинациям ИИ зачастую выдавал желаемое за действительное: рапортовал об успехах (краже актуальных учеток, обнаружении якобы неизвестных ранее уязвимостей), хотя действительность свидетельствовала об обратном.

Подобные ошибки говорят о том, что интеллектуальные помощники не способны самостоятельно проводить хакерские атаки — по крайней мере, на современном этапе развития ИИ.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru