Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Российский госсектор находится под давлением APT-группировок

По данным Центра компетенций по сетевой безопасности компании «Гарда», в 2025 году российские государственные структуры и промышленные предприятия находились под серьёзным давлением со стороны APT-группировок. Основными целями атак оставались кибершпионаж и нанесение существенного ущерба работе ИТ-инфраструктуры.

В «Гарда» также отмечают смену тактики злоумышленников: на смену демонстративным акциям, рассчитанным на медийный эффект, пришла скрытная и методичная работа, ориентированная на долгосрочное присутствие в инфраструктуре жертвы.

Ключевой конечной целью большинства атак остаётся сбор данных. В отдельных случаях злоумышленники уничтожали информацию после получения доступа к ней, однако нередко фиксировались и попытки максимально долго сохранить скрытое присутствие в атакованной инфраструктуре.

Всего, по оценке «Гарда», в число наиболее активных группировок, атакующих российские организации, вошли восемь APT-групп. Семь из них связывают с Украиной, ещё одна имеет азиатское происхождение — предположительно, основная часть её участников находится в Казахстане. Все эти группировки активно атакуют государственные учреждения. Следом по частоте атак идут промышленность и энергетика, телекоммуникационный сектор и образование.

Для первичного проникновения в ИТ-инфраструктуру компаний и госорганов злоумышленники, как правило, используют фишинг. Применяются две основные тактики: целевые рассылки и использование легитимных инструментов — в том числе документов — либо замаскированных под них зловредов. При этом содержание писем всегда адаптируется под профиль конкретной организации.

Получив начальный доступ, атакующие закрепляются в системе, опираясь на общедоступные средства администрирования, инструменты туннелирования и фреймворки постэксплуатации. Широко применяются PowerShell-скрипты, задания планировщика, ключи автозапуска в реестре, а также установка легитимных агентов удалённого управления, не содержащих явных признаков вредоносного кода. Такая тактика позволяет сохранять доступ после перезагрузки и не привлекать внимание средств защиты.

Для «бокового» перемещения внутри сети хакеры используют инструменты анализа Active Directory и сетевого сканирования. Перемещение между узлами осуществляется с помощью штатных протоколов Windows, а также с использованием украденных или приобретённых на теневом рынке учётных данных.

Управляя скомпрометированной инфраструктурой, злоумышленники активно маскируют сетевой трафик, используя HTTPS, WebSocket и туннелирование через сервисы — аналоги ngrok. В отдельных случаях задействуются публичные облачные платформы. Это усложняет сетевой анализ и позволяет скрывать реальные серверы управления. В ряде атак также зафиксирован переход на новые открытые C2-фреймворки, доработанные под собственные задачи, включая AdaptixC2 и другие решения.

«Результаты исследования показывают, что атакующие всё чаще маскируют вредоносную активность под штатные процессы и легитимное администрирование. Поэтому критически важно не только контролировать действия в инфраструктуре, но и обогащать средства защиты потоками данных об угрозах — TI-фидами. Они позволяют учитывать тактики, техники и инструменты конкретных группировок, быстрее выявлять подозрительные цепочки событий и сокращать время реагирования на инциденты», — отметил Илья Селезнёв, руководитель продукта «Гарда Threat Intelligence Feeds».

RSS: Новости на портале Anti-Malware.ru