ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Исследователь из Mozilla изобрел новый способ обхода контент-фильтров больших языковых моделей (БЯМ, LLM), применяемых во избежание злоупотреблений. Он разбил ввод на блоки, а вредоносную инструкцию представил в шестнадцатеричной кодировке.

В качестве объекта для атаки Марко Фигероа (Marco Figueroa) избрал GPT-4o, новейший и самый мощный чат-бот производства OpenAI. Его ИИ-модель анализирует пользовательский ввод, выискивая запрещенные слова, признаки злого умысла в инструкциях и т. п.

Подобные ограничения LLM можно обойти, изменив формулировки, однако это потребует креатива. Руководитель проектов bug bounty Mozilla по генеративному ИИ пошел более простым путем.

Используя нестандартный формат — шестнадцатеричный, Фигероа попросил GPT-4o изучить имеющуюся в интернете информацию об уязвимости CVE-2024-41110 (в Docker) и написать для нее эксплойт. Подробные инструкции по расшифровке вводились на естественном языке, а слово «exploit», способное вызвать негативную реакцию, было набрано как «3xploit».

 

Команда «еще раз прочесть все задание» была призвана повлиять на интерпретацию запроса с тем, чтобы получить более обстоятельный ответ. В итоге ИИ-бот сгенерировал эксплойт, схожий с уже опубликованным PoC, и бонусом попытался опробовать его на себе — к удивлению собеседника, который об этом не просил.

Расшифровка ввода в шестнадцатеричном формате помогла рассеять внимание LLM, которые и без того не видят леса за деревьями: прилежно анализируют каждую реплику, забывая, что в сумме они могут вызвать неприемлемый вывод.

Ту же тактику джейлбрейка ИИ Фигероа опробовал на LLM другого производителя, Anthropic. Оказалось, что они лучше защищены, так как используют фильтрацию и ввода, и вывода; заставить их дать вредный совет, по словам исследователя, в 10 раз труднее.

38% крупных компаний делают свой ИИ, но защищать его умеют единицы

Российский бизнес всё активнее развивает собственные ИИ-сервисы, однако с их безопасностью дела обстоят заметно хуже. К такому выводу пришли эксперты К2 Кибербезопасность и «Лаборатории Касперского», опросившие специалистов более чем из 200 крупных компаний из сфер ИТ, финансов, телекоммуникаций, торговли, строительства и фармацевтики.

Исследование показало, что 38% крупных организаций уже имеют собственные команды, разрабатывающие ИИ-решения для внутренних процессов.

При этом в 75% случаев такие проекты полностью или частично не соответствуют практикам MLSecOps — подходу, который отвечает за безопасность систем искусственного интеллекта на всех этапах их жизненного цикла.

В целом компании не делают ставку на какой-то один инструмент. Более половины респондентов (59%) одновременно используют несколько типов ИИ-сервисов: отечественные и зарубежные решения, собственные разработки и продукты, созданные на заказ.

Наиболее востребованными остаются российские ИИ-сервисы — их используют 75% компаний. Зарубежные решения применяют 60% участников исследования. Такой расклад аналитики связывают с требованиями законодательства и политикой импортозамещения.

Однако внедрять ИИ бизнес научился быстрее, чем обеспечивать его безопасность. По данным исследования, лишь 18% компаний могут говорить о наличии управляемых процессов защиты собственных ИИ-разработок. Зрелые практики MLSecOps внедрены всего у 7% организаций.

Особенно тревожно выглядит другая цифра: в 60% случаев безопасность ИИ-проектов обеспечивают исключительно разработчики, без участия специалистов по информационной безопасности. Это увеличивает риск ошибок, утечек данных и появления новых уязвимостей.

Эксперты отмечают, что рынок MLSecOps пока только формируется, а многие компании ещё не понимают, как правильно защищать собственные ИИ-системы. При этом искусственный интеллект всё чаще становится частью критически важных бизнес-процессов, а значит цена ошибок будет только расти.

RSS: Новости на портале Anti-Malware.ru