ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Исследователь из Mozilla изобрел новый способ обхода контент-фильтров больших языковых моделей (БЯМ, LLM), применяемых во избежание злоупотреблений. Он разбил ввод на блоки, а вредоносную инструкцию представил в шестнадцатеричной кодировке.

В качестве объекта для атаки Марко Фигероа (Marco Figueroa) избрал GPT-4o, новейший и самый мощный чат-бот производства OpenAI. Его ИИ-модель анализирует пользовательский ввод, выискивая запрещенные слова, признаки злого умысла в инструкциях и т. п.

Подобные ограничения LLM можно обойти, изменив формулировки, однако это потребует креатива. Руководитель проектов bug bounty Mozilla по генеративному ИИ пошел более простым путем.

Используя нестандартный формат — шестнадцатеричный, Фигероа попросил GPT-4o изучить имеющуюся в интернете информацию об уязвимости CVE-2024-41110 (в Docker) и написать для нее эксплойт. Подробные инструкции по расшифровке вводились на естественном языке, а слово «exploit», способное вызвать негативную реакцию, было набрано как «3xploit».

 

Команда «еще раз прочесть все задание» была призвана повлиять на интерпретацию запроса с тем, чтобы получить более обстоятельный ответ. В итоге ИИ-бот сгенерировал эксплойт, схожий с уже опубликованным PoC, и бонусом попытался опробовать его на себе — к удивлению собеседника, который об этом не просил.

Расшифровка ввода в шестнадцатеричном формате помогла рассеять внимание LLM, которые и без того не видят леса за деревьями: прилежно анализируют каждую реплику, забывая, что в сумме они могут вызвать неприемлемый вывод.

Ту же тактику джейлбрейка ИИ Фигероа опробовал на LLM другого производителя, Anthropic. Оказалось, что они лучше защищены, так как используют фильтрацию и ввода, и вывода; заставить их дать вредный совет, по словам исследователя, в 10 раз труднее.

Шпионский троян CastleRAT вступил в Steam-сообщество ради связи с C2

Объявившийся в марте этого года Windows-бэкдор CastleRAT существует в двух вариантах: один написан на Python, другой скомпилирован на C. Последний ловчее прячется в системе и обладает более широкими возможностями.

В компании Splunk (собственность Cisco) подвергли анализу пару C-образцов CastleRAT и выяснили, что для управления трояном используются специально созданные публичные профили Steam.

При запуске вредонос собирает системные данные (имя компьютера, имя пользователя, GUID машины, название продукта) и обращается к бесплатному сервису www[.]ip-api[.]com для получения IP-адреса жертвы. Собранная информация отсылается на C2-сервер в подтверждение успешного заражения.

Основной задачей CastleRAT является обеспечение удаленного шелл-доступа к хосту. Зловред также умеет по команде выполнять следующие задачи:

  • составление списка запущенных процессов;
  • кейлоггинг;
  • копирование истории браузера (Microsoft Edge, Google Chrome, Brave, Firefox);
  • кража учетных данных и адресов криптокошельков из буфера обмена;
  • захват экрана (скриншоты выполняются в фоне и с заданной периодичностью);
  • включение / выключение микрофона и веб-камеры;
  • вывод поддельного диалогового окна с целью заставить жертву совершить искомое действие (вбить команду, путь к файлу, учетные данные);
  • останов и повторный запуск браузера с нужными флагами (–mute-audio, –do-not-de-elevate и проч.) в обеспечение скрытного мониторинга и контроля пользовательских сессий;
  • повышение привилегий в обход UAC (с этой целью используется UUID службы Appinfo для запуска доверенного ComputerDefaults.exe на более высоком уровне);
  • загрузка и запуск (с помощью rundll32.exe) дополнительных плагинов.

Чтобы обеспечить себе постоянное присутствие в системе, CastleRAT создает запланированное задание на запуск своей копии при каждой загрузке Windows.

Использование Steam позволяет операторам зловреда скрыть C2-коммуникации в легитимном веб-трафике. Всю релевантную информацию (конфигурация, команды) они постят на страницах игрового комьюнити прямым текстом либо в виде ссылок.

 

Обмен вредоноса с C2 осуществляется с использованием RC4. Ключ для шифрования / расшифровки данных жестко прописан в коде CastleRAT.

RSS: Новости на портале Anti-Malware.ru