ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Исследователь из Mozilla изобрел новый способ обхода контент-фильтров больших языковых моделей (БЯМ, LLM), применяемых во избежание злоупотреблений. Он разбил ввод на блоки, а вредоносную инструкцию представил в шестнадцатеричной кодировке.

В качестве объекта для атаки Марко Фигероа (Marco Figueroa) избрал GPT-4o, новейший и самый мощный чат-бот производства OpenAI. Его ИИ-модель анализирует пользовательский ввод, выискивая запрещенные слова, признаки злого умысла в инструкциях и т. п.

Подобные ограничения LLM можно обойти, изменив формулировки, однако это потребует креатива. Руководитель проектов bug bounty Mozilla по генеративному ИИ пошел более простым путем.

Используя нестандартный формат — шестнадцатеричный, Фигероа попросил GPT-4o изучить имеющуюся в интернете информацию об уязвимости CVE-2024-41110 (в Docker) и написать для нее эксплойт. Подробные инструкции по расшифровке вводились на естественном языке, а слово «exploit», способное вызвать негативную реакцию, было набрано как «3xploit».

 

Команда «еще раз прочесть все задание» была призвана повлиять на интерпретацию запроса с тем, чтобы получить более обстоятельный ответ. В итоге ИИ-бот сгенерировал эксплойт, схожий с уже опубликованным PoC, и бонусом попытался опробовать его на себе — к удивлению собеседника, который об этом не просил.

Расшифровка ввода в шестнадцатеричном формате помогла рассеять внимание LLM, которые и без того не видят леса за деревьями: прилежно анализируют каждую реплику, забывая, что в сумме они могут вызвать неприемлемый вывод.

Ту же тактику джейлбрейка ИИ Фигероа опробовал на LLM другого производителя, Anthropic. Оказалось, что они лучше защищены, так как используют фильтрацию и ввода, и вывода; заставить их дать вредный совет, по словам исследователя, в 10 раз труднее.

BI.ZONE Mail Security получила ИИ для анализа эмоций в письмах

В BI.ZONE Mail Security появилась новая ИИ-функциональность: система научилась анализировать эмоциональную окраску писем и использовать это для выявления атак. Обновление вошло в версию 2.11 и нацелено прежде всего на борьбу с фишингом и BEC-сценариями, замаскированными под обычную деловую переписку.

Новый ИИ-модуль оценивает тональность писем — позитивную, негативную или нейтральную — и параллельно ищет признаки манипулятивного воздействия.

Речь идёт о характерных приёмах социальной инженерии: давлении, апелляции к срочности, тревожной или ультимативной подаче. За счёт этого система может точнее понимать намерения отправителя и быстрее реагировать на письма, которые внешне выглядят легитимно, но на самом деле подталкивают получателя к рискованным действиям.

Как отмечают в BI.ZONE, злоумышленники всё чаще выдают себя за бухгалтерию, руководителей или подрядчиков и делают ставку не на вредоносные вложения, а на психологию. Поэтому задача защиты почты сегодня — не просто проверить ссылки и домены, а распознать контекст и скрытые попытки давления. Анализ эмоциональных и поведенческих паттернов позволяет лучше отделять реальные рабочие письма от фишинга и атак класса BEC.

Помимо ИИ-анализа, в версии 2.11 доработали и сопутствующую функциональность. Появилась автоматическая синхронизация списка разрешённых получателей с Active Directory, что упрощает администрирование и снижает риск ошибок в настройках. Для защиты учётных записей добавили двухфакторную аутентификацию по TOTP и механизм принудительной смены паролей по истечении срока их действия.

Обновили и сценарии реагирования на подозрительные письма. Теперь можно включать предупреждения для сообщений от внешних отправителей и добавлять кнопку жалобы прямо в тело письма. Если на сообщение пожаловался один сотрудник, система повышает риск-рейтинг отправителя и блокирует его письма только для этого пользователя.

При массовых жалобах блокировка применяется уже на уровне всей организации. При этом учитываются и обратные ситуации: если письма разрешают или массово помечают отправителя как доверенного, риск-рейтинг автоматически снижается — индивидуально или глобально.

В новой версии также усилили фильтрацию поддельных писем: улучшили проверку DMARC для защиты от подмены доменов. Для onprem-установок упростили обновление — теперь перейти на актуальную версию можно напрямую через инсталлятор. Журнал сообщений стал более подробным: в нём отображается рейтинг письма на каждом этапе проверки и детальная информация по SMTP-анализу. Кроме того, администраторам дали возможность вручную обучать модель категоризации писем через веб-интерфейс.

В итоге BI.ZONE Mail Security 2.11 делает акцент не столько на «громкие» вредоносные письма, сколько на тихие, психологически выверенные атаки — именно те, которые сегодня всё чаще проходят под видом обычной корпоративной переписки.

RSS: Новости на портале Anti-Malware.ru