Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Минцифры запретит региональным властям ограничивать установку систем связи

Минцифры подготовило законопроект, который запрещает регионам и муниципалитетам вводить собственные ограничения на установку базовых станций и антенно-мачтовых сооружений. По оценке ведомства, такие решения местных властей часто мешают развитию инфраструктуры связи.

Документ появился на портале проектов нормативных актов. Как следует из пояснительной записки, поводом для его разработки стало массовое появление региональных нормативных актов, устанавливающих ограничения на размещение объектов связи, включая базовые станции и антенно-мачтовые сооружения.

Такие нормы уже приняты в Ленинградской, Московской, Пензенской и Тюменской областях, а также в Пермском крае.

«Указанные ограничения создают препятствия для размещения новых сооружений связи, а в ряде случаев являются основанием для демонтажа уже функционирующих объектов связи, что может повлечь прекращение оказания услуг подвижной радиотелефонной связи на соответствующих территориях», — говорится в документе.

Эксперты, опрошенные «Российской газетой», назвали такие ограничения одним из наиболее серьёзных препятствий для развития отрасли связи. По их словам, в плотной жилой застройке соблюдение подобных требований может сделать установку новых объектов инфраструктуры практически невозможной, что неизбежно снижает качество связи. Инициатива Минцифры должна унифицировать требования к размещению таких объектов.

«Вместо разъяснительной работы и взаимодействия с гражданами местные администрации вводили жёсткие ограничения на размещение базовых станций. В результате соблюдение этих ограничений затрудняло или делало невозможным развитие сетей связи с обеспечением качественного покрытия и при разумном уровне инвестиций», — считает аналитик Алексей Бойко.

«Ограничения, которые вводятся на уровне муниципальных образований и субъектов РФ, могут стать серьёзным барьером на пути развития телеком-инфраструктуры в стране как основы предоставления качественных услуг связи для удовлетворения потребностей граждан, бизнеса и государства и не позволят достичь целей, которые установлены в программных документах, в том числе в Стратегии развития отрасли связи РФ до 2035 года», — прокомментировали изданию свою законодательную инициативу в Минцифры.

RSS: Новости на портале Anti-Malware.ru