Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Зарубежные интернет-покупки могут обложить НДС в 22% уже с 2027 года

Минпромторг поддержал введение НДС на товары, которые россияне заказывают из-за рубежа через интернет. Сейчас обсуждается схема, при которой налог начнут вводить с 2027 года, а затем постепенно поднимут до 22%.

Как сообщили ТАСС в министерстве, изначально рассматривался поэтапный вариант:

  • 7% в 2027 году,
  • 14% в 2028-м,
  • 22% в 2029-м.

Но сам Минпромторг выступает за более жёсткий сценарий — сразу установить ставку НДС в 22% уже с 1 января 2027 года.

История началась после обращения Российского союза кожевников и обувщиков в правительство. Бизнес предложил не только ввести НДС на зарубежные интернет-заказы, но и добавить пошлины на весь импорт, а также обязательную маркировку иностранных товаров.

По сути, речь идёт о попытке выровнять условия между российскими продавцами и зарубежными маркетплейсами. Сейчас многие товары из иностранных интернет-магазинов оказываются дешевле именно из-за различий в налогах и правилах ввоза.

Если инициативу примут, заказывать товары из-за границы может стать заметно дороже. Особенно это затронет популярные покупки с иностранных площадок: одежду, обувь, электронику и различные мелкие товары, которые сейчас часто заказывают напрямую.

Пока речь идёт именно о проработке механизма. Но сам факт, что Минпромторг публично поддержал идею 22% НДС, показывает: вероятность серьёзных изменений для трансграничной интернет-торговли уже вполне реальна.

RSS: Новости на портале Anti-Malware.ru