Microsoft: системы на базе ИИ никогда не станут абсолютно безопасными

Microsoft: системы на базе ИИ никогда не станут абсолютно безопасными

Microsoft: системы на базе ИИ никогда не станут абсолютно безопасными

Команда Microsoft AI Red Team (AIRT) подытожила свой опыт тестирования 100 продуктов, созданных в компании на основе генеративного ИИ, и пришла к выводу, что обеспечение безопасности таких систем — нескончаемый процесс.

Из-за фундаментальных ограничений ИИ-моделей угрозы вроде инъекции стимула и джейлбрейка в этой сфере неистребимы.

Однако такие атаки можно сделать более затратными — как и в случае с другими ИТ-рисками, которые удается снизить, применяя, к примеру, тактику эшелонированной защиты (defense-in-depth) или следуя принципам конструктивной безопасности (security-by-design).

Делясь опытом, в Red Team также отметили (PDF), что для выстраивания защиты ИИ-системы важно понимать ее возможности и учитывать сферу применения. Так, большие языковые модели (БЯМ, LLM) склонны слепо следовать инструкциям пользователя, и их легко обмануть, спрятав вредоносный контент в большом объеме безобидного текста при вводе.

Также атака на ИИ-помощника по литературному творчеству вряд ли приведет к серьезным последствиям, а в случае с LLM, предназначенной для анализа историй болезни, может нанести вред здоровью пациентов и поставить крест на репутации медучреждения.

Чтобы заставить LLM выдать вредный совет, необязательно проводить градиентные состязательные атаки. Тот же эффект можно получить более дешевым способом, манипулируя интерфейсом либо введя в заблуждение модель языка и технического зрения.

 

Еще одно важное наблюдение, которым поделились специалисты: использование ИИ увеличивает существующие риски и создает новые.

Напомним, вопросы использования ИИ недавно обсуждались в ходе Открытой конференции Института системного программирования РАН им. В. П. Иванникова. Участники пленарной дискуссии сошлись во мнении, что внедрение ИИ-технологий тормозят проблемы доверия и безопасности таких сервисов.

ИИ-турагент приглашал посетить горячие источники Австралии, которых нет

По прибытии на остров Тасмания любители экзотики, внявшие совету ИИ-блогера на сайте австралийского туроператора, обнаруживали, что разрекламированных термальных источников в сельской тиши не существует.

Не менее удивлена была хозяйка единственного и обычно безлюдного отеля в Вельдборо (поселок городского типа на севере Тасмании), когда ей стали звонить по пять раз в сутки и повалили гости, жаждущие искупаться с комфортом в несезон.

На расспросы о горячих источниках она лишь разводила руками, обещая поставить пиво тому, кто их найдет. В качестве альтернативы предлагала посетить местную сауну, а потом нырнуть в замерзающую реку, но разочарованные туристы шутку не оценили.

Запись с описанием тура и приманкой, порожденной угодливым, но склонным к галлюцинациям ИИ, уже удалена из каталога Tasmania Tours, но успела нанести вред репутации скромного турагентства, которое пыталось удержаться на плаву за счет использования высоких технологий.

Как оказалось, его владелец отдал маркетинг на аутсорс, взяв за правило проверять публикуемые материалы, однако на момент выхода блог-записи о мифической достопримечательности Тасмании он был в отъезде.

Согласно результатам исследования, проведенного в австралийском университете Южного Креста (Southern Cross), турагентства уже достаточно широко используют ИИ-технологии, притом не только для создания блог-записей, рекламных материалов, путеводителей, но также для составления смет.

Примечательно, что у туристов ИИ-рекомендации стали вызывать больше доверия, чем отзывы на специализированных сайтах. В настоящее время на суждения и продукты ИИ полагаются почти 37% любителей путешествий.

Исследование также показало, что 90% создаваемых ИИ путеводителей содержат ошибки, которые способны подвергнуть опасности людей, стремящихся отдохнуть от благ цивилизации.

RSS: Новости на портале Anti-Malware.ru