Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

В Сети распространился дипфейк с губернатором Калининградской области

В Сети распространяется видео, в котором якобы губернатор Калининградской области Алексей Беспрозванных комментирует вакцинацию местных врачей от холеры и делает провокационные заявления в адрес Польши и стран Балтии.

Однако, как сообщил телеграм-канал «Лапша Медиа», система «Зефир», разработанная АНО «Регионы», подтвердила, что видео не является подлинным — речь идёт о контенте, сгенерированном нейросетью.

Пресс-служба правительства Калининградской области также опровергла подлинность ролика. В сообщении уточняется, что за основу дипфейка было взято выступление Алексея Беспрозванных от 7 февраля, в котором он комментировал выход прибалтийских стран из единой энергосистемы.

Региональные власти также назвали провокацией слухи о якобы распространении холеры в области. По их словам, «авторы фейка намеренно распространяют ложную информацию накануне проведения акций “Бессмертный полк” и “Солдатская каша” в честь Дня Победы, чтобы вызвать панику среди населения».

По данным пресс-службы, голос в видео «лишь отдалённо» напоминает голос губернатора, а общее качество ролика оценивается как «очень низкое». Об этом заявила пресс-секретарь главы региона Мариам Башкирова.

Инцидент стал очередным в череде дипфейковых роликов с участием глав российских регионов. По данным на начало 2025 года, в России уже обнаружено 61 уникальное дипфейк-видео политического характера.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru