ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Исследователь из Mozilla изобрел новый способ обхода контент-фильтров больших языковых моделей (БЯМ, LLM), применяемых во избежание злоупотреблений. Он разбил ввод на блоки, а вредоносную инструкцию представил в шестнадцатеричной кодировке.

В качестве объекта для атаки Марко Фигероа (Marco Figueroa) избрал GPT-4o, новейший и самый мощный чат-бот производства OpenAI. Его ИИ-модель анализирует пользовательский ввод, выискивая запрещенные слова, признаки злого умысла в инструкциях и т. п.

Подобные ограничения LLM можно обойти, изменив формулировки, однако это потребует креатива. Руководитель проектов bug bounty Mozilla по генеративному ИИ пошел более простым путем.

Используя нестандартный формат — шестнадцатеричный, Фигероа попросил GPT-4o изучить имеющуюся в интернете информацию об уязвимости CVE-2024-41110 (в Docker) и написать для нее эксплойт. Подробные инструкции по расшифровке вводились на естественном языке, а слово «exploit», способное вызвать негативную реакцию, было набрано как «3xploit».

 

Команда «еще раз прочесть все задание» была призвана повлиять на интерпретацию запроса с тем, чтобы получить более обстоятельный ответ. В итоге ИИ-бот сгенерировал эксплойт, схожий с уже опубликованным PoC, и бонусом попытался опробовать его на себе — к удивлению собеседника, который об этом не просил.

Расшифровка ввода в шестнадцатеричном формате помогла рассеять внимание LLM, которые и без того не видят леса за деревьями: прилежно анализируют каждую реплику, забывая, что в сумме они могут вызвать неприемлемый вывод.

Ту же тактику джейлбрейка ИИ Фигероа опробовал на LLM другого производителя, Anthropic. Оказалось, что они лучше защищены, так как используют фильтрацию и ввода, и вывода; заставить их дать вредный совет, по словам исследователя, в 10 раз труднее.

В Exim нашли критическую RCE-уязвимость: почтовики лучше обновить срочно

В популярном почтовом сервере Exim обнаружили критическую уязвимость CVE-2026-45185. При определённых условиях она позволяет удалённому атакующему без аутентификации выполнить произвольный код на сервере. Вполне себе неприятный сценарий, поэтому лучше не затягивать с установкой патча.

Проблема затрагивает версии Exim с 4.97 по 4.99.2, если они собраны с библиотекой GnuTLS и рекламируют STARTTLS вместе с CHUNKING. Сборки на OpenSSL, по имеющимся данным, не страдают — редкий случай, когда можно выдохнуть, но только после проверки конфигурации.

Суть бага — use-after-free во время завершения TLS-сессии при обработке SMTP-трафика BDAT. Exim освобождает TLS-буфер передачи, но затем продолжает использовать устаревшие callback-ссылки, которые могут писать данные уже в освобождённую область памяти. А дальше начинается классика жанра: повреждение памяти, удалённое выполнение кода и очень плохой день у администратора.

Exim широко используется на Linux- и Unix-серверах, в корпоративных почтовых системах, а также в Debian- и Ubuntu-based дистрибутивах, где он исторически часто выступал почтовым сервером по умолчанию.

По данным XBOW, баг был передан мейнтейнерам Exim 1 мая, подтверждение пришло 5 мая, а ещё через три дня уведомили затронутые Linux-дистрибутивы. Исправление уже выпущено в Exim 4.99.3.

Отдельная перчинка — попытка собрать PoC с помощью ИИ. XBOW устроила семидневное соревнование между своей автономной системой XBOW Native и человеком-исследователем, которому помогала большая языковая модель. ИИ смог собрать рабочий эксплойт для упрощённой цели без ASLR и с бинарником non-PIE. Во втором подходе LLM добралась до эксплуатации на системе с ASLR, но всё ещё без PIE.

Победил, впрочем, человек. Исследователь признал, что ИИ сильно ускоряет разбор незнакомого кода, сборку файлов и проверку направлений атаки, но до самостоятельной эксплуатации реального софта без человеческого руля моделям ещё надо подрасти.

RSS: Новости на портале Anti-Malware.ru