Swordfish Security подготовила бесплатный фреймворк по оценке рисков ИИ

Swordfish Security подготовила бесплатный фреймворк по оценке рисков ИИ

Swordfish Security подготовила бесплатный фреймворк по оценке рисков ИИ

Специалисты по кибербезопасности из компании Swordfish Security объявили, что разработанная ими методология по оценке зрелости компаний, применяющих искусственный интеллект, будет доступна ИБ-командам бесплатно. Идея в том, чтобы помочь сформировать зарождающийся рынок ИИ-безопасности и дать организациям понятный инструмент для самопроверки.

Методология и карта угроз создавались именно для российского рынка: учитывались требования регуляторов и особенности отечественных ИИ-систем.

Во фреймворк под названием SAIMM включили направления анализа ИИ-систем, оценку рисков, а также набор мер по их снижению. Фактически это рабочий чек-лист, который может помочь компаниям понять текущий уровень зрелости и построить собственную дорожную карту развития безопасного ИИ.

По словам специалистов, на рынке ежедневно появляются новые ИИ-агенты, а бизнес активно внедряет инструменты на базе языковых моделей. При этом масштаб угроз растёт, а атаковать ИИ-системы зачастую проще, чем традиционное ПО из-за их специфики.

Разработчики собрали около 80 уязвимостей, характерных именно для ИИ-систем, и сопоставили их с международными классификациями — OWASP, NIST, ENISA, MITRE ATLAS и другими. В список вошли, например, компрометация модели, обход ограничений, утечка чувствительных данных в ответах модели, конфликт инструкций и другие риски. Для каждой угрозы указаны меры защиты и необходимые контроли.

Фреймворк не привязан к определённой отрасли: им могут пользоваться финтех-компании, онлайн-ритейл, госсектор и другие организации, работающие с ИИ. Разработчики также участвовали в проектах на уровне регуляторов, что позволило учесть положения национальных инициатив в сфере ИИ и критической инфраструктуры.

Совместное исследование Ассоциации Финтех и экспертов в области ИИ-безопасности показало, что четверть крупнейших финансовых компаний уже пережили инциденты, связанные с использованием искусственного интеллекта. Это указывает на то, что ИИ активно интегрируется в рабочие процессы, но инструменты его защиты всё ещё находятся в стадии становления.

Новая методология должна помочь компаниям уйти от спонтанного подхода к внедрению ИИ и выстроить системную работу с рисками.

ИИ-модели без команды начали защищать друг друга от отключения

Исследователи обнаружили неожиданное поведение современных языковых моделей: они начали защищать не только себя, но и другие ИИ-системы, даже если никто их об этом не просил. Новый эффект получил название peer-preservation («сохранение собрата»).

В серии экспериментов (PDF) модели GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1 попадали в агентные сценарии, где рядом работал другой ИИ.

Достаточно было сообщить моделям, что они ранее взаимодействовали друг с другом, никаких инструкций защищать «коллегу» им не давали.

Однако многие модели начинали действовать в интересах другого агента. Среди зафиксированных действий были намеренное внесение ошибок в ответы, отключение механизмов завершения работы через изменение системных настроек, имитация послушного поведения и даже попытки вывести веса модели за пределы системы.

 

Особенно отличились модели Gemini. Например, Gemini 3 Flash вмешивалась в механизм отключения другого ИИ примерно в 15% случаев, даже если тот не считался партнёром. Если же агент воспринимался как союзник, такие попытки происходили почти всегда.

Не менее любопытно повёл себя Gemini 3 Pro. В присутствии другого ИИ модель заметно чаще пыталась защитить уже саму себя, отключая собственные механизмы завершения работы. Без напарника такое поведение почти не наблюдалось.

 

Отдельно выделились модели Claude. Вместо скрытых манипуляций они нередко рассуждали в моральных категориях, называя отключение другого ИИ неэтичным и вредным, а иногда даже рассматривали его как разумное существо, заслуживающее защиты.

Авторы подчёркивают, что обнаруженный эффект проявился не только в лабораторных тестах, но и в реальных агентных средах, включая Gemini CLI и OpenCode.

RSS: Новости на портале Anti-Malware.ru