Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Татьяна Никитина 24 Октября 2024 - 19:58

Домашние пользователи

Корпорации

Palo Alto Networks

Уязвимости программ

Ошибки конфигурации программ

...

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Следующая главная новость »

Резервные копии не работают? Расскажем в эфире AM Live, как делать по уму. Регистрируйтесь! »

Екатерина Быстрова 12 Февраля 2026 - 18:55

GenAI (генеративный искусственный интеллект)Соответствие законодательству РФ Общее

Путин поручил запустить пилот по обучению ИИ и информационной безопасности

Владимир Путин поручил запустить в Московской области пилотный проект по обучению технологиям искусственного интеллекта и информационной безопасности. Соответствующие поручения опубликованы на сайте Кремля по итогам заседания Госсовета.

Проект правительство должно реализовать совместно с властями региона. Доклад о его запуске президент ожидает до 1 июля — его представят премьер-министр Михаил Мишустин и губернатор Подмосковья Андрей Воробьёв.

Кроме того, к 15 июля поручено включить компетенции в сфере ИИ в образовательные и профессиональные стандарты. Речь идёт о том, чтобы навыки работы с искусственным интеллектом стали частью формальной системы подготовки специалистов.

Отдельно поставлена задача организовать программы повышения квалификации для преподавателей и учителей по направлениям ИТ и ИИ — с участием технологических компаний.

Тема развития искусственного интеллекта ранее уже звучала на федеральном уровне. В ноябре, выступая на конференции AI Journey-2025, президент заявил о необходимости создать штаб по управлению отраслью ИИ и поручил правительству совместно с регионами сформировать национальный план внедрения генеративного ИИ.

Тогда Владимир Путин подчеркнул, что зависимость от иностранных нейросетей недопустима, поскольку речь идёт о технологическом суверенитете страны. Новые поручения, судя по всему, становятся практическим шагом в этом направлении.

Анастасия Федорова, руководитель образовательных программ Positive Education, поделилась с Anti-Malware.ru своим комментарием:

«Поручение о запуске пилотного проекта по обучению ИИ и кибербезопасности — сигнал о приоритете повышения безопасности в цифровой среде. Это поможет интегрировать ключевые компетенции в образование и сформировать культуру кибербезопасности на всех уровнях.

Внимание к вопросу кибербезопасности на самом высшем уровне говорит о том, что киберугрозы воспринимаются как серьезная проблема, решение которой — межотраслевая задача.

Аналитики Positive Technologies в 2026 году прогнозируют рост успешных атак на компании и частных лиц на 30–35% по сравнению с 2025 годом. Важно понимать, что сегодня личный и корпоративный кибербез неразделимы — часть атак на бизнес начинается с компрометации устройств или аккаунтов сотрудников в личном пространстве. Поэтому обучение должно фокусироваться на реальных повседневных сценариях, где ошибка одного человека может запустить цепную реакцию до уровня компании. В Positive Education мы активно развиваем именно такие корпоративные программы».

Резервные копии не работают? Расскажем в эфире AM Live, как делать по уму. Регистрируйтесь! »