Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Татьяна Никитина 24 Октября 2024 - 19:58

Домашние пользователи

Корпорации

Palo Alto Networks

Уязвимости программ

Ошибки конфигурации программ

...

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Следующая главная новость »

Ошибка в настройках стоит дорого: как управлять конфигурациями?
Регистрируйтесь на эфир!

Екатерина Быстрова 18 Июня 2026 - 09:50

Windows Домашние пользователи Microsoft

В Windows 11 нашли скрытую настройку ускорения процессора

Оказывается, в Windows 11 уже давно спрятана функция, которая позволяет заметно изменить поведение процессора, от максимальной производительности до экономии энергии и снижения шума вентиляторов. Проблема лишь в том, что по умолчанию Microsoft её скрывает.

Речь идёт о настройке Processor Performance Boost Mode. Она отвечает за то, насколько агрессивно Windows разрешает процессору повышать частоту выше базовых значений.

По умолчанию пользователи видят в настройках питания только минимальное и максимальное состояние процессора. Однако через изменение одного параметра в реестре можно открыть целый набор дополнительных профилей управления производительностью:

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Power\PowerSettings\54533251-82be-4824-96c1-47b60b740d00\be337238-0d82-4146-a960-4f3749d470c7

После активации в разделе управления питанием появляются режимы Aggressive, Efficient Enabled, Efficient Aggressive, а также несколько вариантов At Guaranteed.

Например, режим Aggressive заставляет процессор быстрее и чаще уходить в турбобуст. Такой вариант подойдёт для игр, монтажа видео, разработки и других тяжёлых задач.

Режимы с приставкой Efficient работают наоборот — стараются экономить энергию, снижать нагрев и уменьшать шум системы, не отключая ускорение полностью.

По сути, это своеобразный разгон для ленивых. Пользователю не нужно лезть в BIOS, менять напряжения или настраивать множители процессора. Windows сама управляет частотами, просто по-разному расставляя приоритеты между производительностью и энергоэффективностью.

Функция работает на системах с поддержкой технологии Collaborative Processor Performance Control (CPPC), которая есть у большинства современных процессоров AMD и Intel.

Особенно полезной настройка может оказаться для владельцев ноутбуков. С её помощью можно либо выжать максимум производительности из устройства, либо, наоборот, продлить время работы от батареи и уменьшить нагрев.

Любопытно, что Microsoft никак не рекламирует эту возможность и прячет её от большинства пользователей.

Ошибка в настройках стоит дорого: как управлять конфигурациями?
Регистрируйтесь на эфир!