ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Исследователь из Mozilla изобрел новый способ обхода контент-фильтров больших языковых моделей (БЯМ, LLM), применяемых во избежание злоупотреблений. Он разбил ввод на блоки, а вредоносную инструкцию представил в шестнадцатеричной кодировке.

В качестве объекта для атаки Марко Фигероа (Marco Figueroa) избрал GPT-4o, новейший и самый мощный чат-бот производства OpenAI. Его ИИ-модель анализирует пользовательский ввод, выискивая запрещенные слова, признаки злого умысла в инструкциях и т. п.

Подобные ограничения LLM можно обойти, изменив формулировки, однако это потребует креатива. Руководитель проектов bug bounty Mozilla по генеративному ИИ пошел более простым путем.

Используя нестандартный формат — шестнадцатеричный, Фигероа попросил GPT-4o изучить имеющуюся в интернете информацию об уязвимости CVE-2024-41110 (в Docker) и написать для нее эксплойт. Подробные инструкции по расшифровке вводились на естественном языке, а слово «exploit», способное вызвать негативную реакцию, было набрано как «3xploit».

 

Команда «еще раз прочесть все задание» была призвана повлиять на интерпретацию запроса с тем, чтобы получить более обстоятельный ответ. В итоге ИИ-бот сгенерировал эксплойт, схожий с уже опубликованным PoC, и бонусом попытался опробовать его на себе — к удивлению собеседника, который об этом не просил.

Расшифровка ввода в шестнадцатеричном формате помогла рассеять внимание LLM, которые и без того не видят леса за деревьями: прилежно анализируют каждую реплику, забывая, что в сумме они могут вызвать неприемлемый вывод.

Ту же тактику джейлбрейка ИИ Фигероа опробовал на LLM другого производителя, Anthropic. Оказалось, что они лучше защищены, так как используют фильтрацию и ввода, и вывода; заставить их дать вредный совет, по словам исследователя, в 10 раз труднее.

Опасная уязвимость в GNU Wget2 позволяет удалённо перезаписывать файлы

В популярном консольном загрузчике GNU Wget2 обнаружили серьёзную уязвимость, которая позволяет злоумышленникам перезаписывать файлы на компьютере жертвы — без её ведома и согласия. Проблема получила идентификатор CVE-2025-69194 и высокую степень риска — 8,8 балла по CVSS, то есть игнорировать её точно не стоит.

Брешь связана с обработкой Metalink-файлов — это специальные документы, в которых описано сразу несколько источников для скачивания одного и того же файла (зеркала, P2P и так далее).

По идее, Wget2 должен строго контролировать, куда именно сохраняются загружаемые данные. Но, как выяснили исследователи из Apache, на практике с этим есть проблемы.

Из-за ошибки в проверке путей злоумышленник может подготовить вредоносный Metalink-файл с «хитрыми» именами вроде ../. Это классическая уязвимость path traversal: она позволяет выйти за пределы рабочего каталога и записать файл практически в любое место в системе. Достаточно, чтобы пользователь просто обработал такой металинк — и дальше всё происходит без его участия.

Последствия могут быть весьма неприятными. В худшем случае атакующий сможет:

  • перезаписать важные системные или пользовательские файлы и вызвать потерю данных;
  • подменить конфигурации или скрипты и добиться выполнения вредоносного кода;
  • изменить настройки безопасности или файлы аутентификации, создав себе бэкдор.

Да, атака требует взаимодействия с вредоносным файлом, но с учётом последствий риск выглядит более чем реальным — особенно для тех, кто регулярно использует Wget2 в автоматизированных сценариях или CI/CD-пайплайнах.

Если вы работаете с Wget2 и Metalink, сейчас самое время внимательно отнестись к источникам загрузки и следить за выходом обновлений. В этой истории один неосторожный файл может стоить слишком дорого.

RSS: Новости на портале Anti-Malware.ru