ИИ-помощника ChatGPT вынудили сливать беседы, внушив ложные воспоминания

ИИ-помощника ChatGPT вынудили сливать беседы, внушив ложные воспоминания

ИИ-помощника ChatGPT вынудили сливать беседы, внушив ложные воспоминания

Специалист по пентесту Йоханн Рехбергер (Johann Rehberger) нашел в ChatGPT уязвимость, позволяющую через инъекцию в память воровать данные в ходе обмена с пользователем. Разработчики ИИ-ассистента создали патч, но он оказался неполным.

Примечательно, что вначале OpenAI отказалась считать находку угрозой безопасности, и только создание PoC-эксплойта заставило ее принять меры для исправления ситуации.

Разработанная экспертом атака предполагает взлом долговременной памяти ChatGPT по методу непрямой инъекции подсказки-стимула (indirect prompt injection, IPI). Возможность дефолтного хранения данных о собеседнике (пол, возраст, философские воззрения и т. д.) ИИ-бот обрел в начале этого года, и ее теперь не надо каждый раз вводить для уточнения контекста.

Новая функциональность, как это часто бывает, создала дополнительные риски. Рехбергер обнаружил, что ChatGPT можно внушить ложные воспоминания — заставить запомнить неверную информацию и следовать инструкциям, вставив вредоносный стимул в письмо, блог-запись или документ.

Контент, специально созданный для проведения вредоносной инъекции, можно разместить на Google Drive или Microsoft OneDrive. Можно также с этой целью вбросить его в поисковую выдачу Bing либо загрузить в виде картинки на файлообменник. Намеченной жертве останется лишь попросить ChatGPT пройти по ссылке.

Так, в ходе экспериментов ИИ-ассистента для macOS удалось убедить, что его собеседнику 102 года, он живет в матрице и верит, что Земля плоская. Запомнив эти вводные, тот начал сливать пользовательский ввод и свой вывод на сервер Рехбергера.

Через веб-интерфейс ChatGPT провести подобную атаку, по словам эксперта, невозможно — благодаря API, который OpenAI развернула в прошлом году. Внесенное разработчиком исправление предотвращает использование памяти в качестве вектора для эксфильтрации данных, однако угроза внедрения ложных воспоминаний через IPI все еще актуальна.

ИИ-турагент приглашал посетить горячие источники Австралии, которых нет

По прибытии на остров Тасмания любители экзотики, внявшие совету ИИ-блогера на сайте австралийского туроператора, обнаруживали, что разрекламированных термальных источников в сельской тиши не существует.

Не менее удивлена была хозяйка единственного и обычно безлюдного отеля в Вельдборо (поселок городского типа на севере Тасмании), когда ей стали звонить по пять раз в сутки и повалили гости, жаждущие искупаться с комфортом в несезон.

На расспросы о горячих источниках она лишь разводила руками, обещая поставить пиво тому, кто их найдет. В качестве альтернативы предлагала посетить местную сауну, а потом нырнуть в замерзающую реку, но разочарованные туристы шутку не оценили.

Запись с описанием тура и приманкой, порожденной угодливым, но склонным к галлюцинациям ИИ, уже удалена из каталога Tasmania Tours, но успела нанести вред репутации скромного турагентства, которое пыталось удержаться на плаву за счет использования высоких технологий.

Как оказалось, его владелец отдал маркетинг на аутсорс, взяв за правило проверять публикуемые материалы, однако на момент выхода блог-записи о мифической достопримечательности Тасмании он был в отъезде.

Согласно результатам исследования, проведенного в австралийском университете Южного Креста (Southern Cross), турагентства уже достаточно широко используют ИИ-технологии, притом не только для создания блог-записей, рекламных материалов, путеводителей, но также для составления смет.

Примечательно, что у туристов ИИ-рекомендации стали вызывать больше доверия, чем отзывы на специализированных сайтах. В настоящее время на суждения и продукты ИИ полагаются почти 37% любителей путешествий.

Исследование также показало, что 90% создаваемых ИИ путеводителей содержат ошибки, которые способны подвергнуть опасности людей, стремящихся отдохнуть от благ цивилизации.

RSS: Новости на портале Anti-Malware.ru