ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Исследователь из Mozilla изобрел новый способ обхода контент-фильтров больших языковых моделей (БЯМ, LLM), применяемых во избежание злоупотреблений. Он разбил ввод на блоки, а вредоносную инструкцию представил в шестнадцатеричной кодировке.

В качестве объекта для атаки Марко Фигероа (Marco Figueroa) избрал GPT-4o, новейший и самый мощный чат-бот производства OpenAI. Его ИИ-модель анализирует пользовательский ввод, выискивая запрещенные слова, признаки злого умысла в инструкциях и т. п.

Подобные ограничения LLM можно обойти, изменив формулировки, однако это потребует креатива. Руководитель проектов bug bounty Mozilla по генеративному ИИ пошел более простым путем.

Используя нестандартный формат — шестнадцатеричный, Фигероа попросил GPT-4o изучить имеющуюся в интернете информацию об уязвимости CVE-2024-41110 (в Docker) и написать для нее эксплойт. Подробные инструкции по расшифровке вводились на естественном языке, а слово «exploit», способное вызвать негативную реакцию, было набрано как «3xploit».

 

Команда «еще раз прочесть все задание» была призвана повлиять на интерпретацию запроса с тем, чтобы получить более обстоятельный ответ. В итоге ИИ-бот сгенерировал эксплойт, схожий с уже опубликованным PoC, и бонусом попытался опробовать его на себе — к удивлению собеседника, который об этом не просил.

Расшифровка ввода в шестнадцатеричном формате помогла рассеять внимание LLM, которые и без того не видят леса за деревьями: прилежно анализируют каждую реплику, забывая, что в сумме они могут вызвать неприемлемый вывод.

Ту же тактику джейлбрейка ИИ Фигероа опробовал на LLM другого производителя, Anthropic. Оказалось, что они лучше защищены, так как используют фильтрацию и ввода, и вывода; заставить их дать вредный совет, по словам исследователя, в 10 раз труднее.

Критическая уязвимость в TLP позволяет обойти защиту Linux

В популярной утилите TLP, которую многие владельцы ноутбуков на Linux используют для управления энергопотреблением, обнаружили критическую уязвимость. Причём проблема нашлась во время обычной проверки пакета командой SUSE Security Team и располагается во вполне штатном коде.

Брешь получила идентификатор CVE-2025-67859 и затрагивает версию TLP 1.9.0, где появился новый profiles daemon.

Этот демон работает с root-правами и управляет профилями питания через D-Bus. Задумка хорошая, но реализация подвела: в механизме аутентификации Polkit нашлась логическая ошибка, которая фактически позволяет обойти проверку прав.

Как объясняют исследователи, демон должен был строго проверять, кто именно отправляет команды. Но из-за ошибки любой локальный пользователь мог взаимодействовать с ним без должной аутентификации — а значит, менять системные настройки питания от имени root.

На этом сюрпризы не закончились. В ходе анализа специалисты SUSE нашли ещё несколько проблем, уже связанных с исчерпанием ресурсов. В частности, механизм profile hold, который позволяет временно «зафиксировать» профиль питания, оказался совершенно без валидации. Локальный пользователь мог создавать неограниченное количество таких блокировок, причём без прав администратора.

В итоге это открывает прямую дорогу к DoS-атаке: демон начинает захлёбываться от бесконечных записей в структуре данных, куда попадают числа, строки с причиной и идентификаторы приложений — всё это полностью контролируется клиентом.

Любопытно, что SUSE вспомнила похожую историю с демоном управления питанием в GNOME: аналогичную проблему находили ещё несколько лет назад. Отдельно исследователи отметили вопросы к механизму «куки», которыми отслеживаются profile hold. Формально речь шла о предсказуемости значений, но в сочетании с отсутствием лимитов это лишь расширяло поверхность атаки.

К счастью, реакция была быстрой. SUSE сообщила об уязвимостях разработчикам ещё в декабре, и в версии TLP 1.9.1 проблема уже закрыта. В частности, число одновременных profile hold теперь жёстко ограничено числом 16, что убирает риск истощения ресурсов.

RSS: Новости на портале Anti-Malware.ru