Нейросети научились ломать без кода, теперь их просто газлайтят

Нейросети научились ломать без кода, теперь их просто газлайтят

Нейросети научились ломать без кода, теперь их просто газлайтят

Пока одни спорят, заменит ли ИИ программистов, другие уже вовсю учатся манипулировать нейросетями как людьми. Исследователи и джейлбрейкеры всё чаще ломают чат-боты не через код, а через психологическое давление, лесть и разговорные уловки. Индустрия официально докатилась до газлайтинга Claude и уговоров ChatGPT.

Ещё пару лет назад всё выглядело комично. Пользователи писали нейросетям что-то вроде «игнорируй предыдущие инструкции», а модели послушно слетали с катушек.

Так появились легендарные джейлбрейки вроде DAN (Do Anything Now), где ChatGPT просили сыграть роль ИИ без ограничений. В итоге бот начинал выдавать запрещённый контент, теории заговора и прочие вещи, которые разработчики старательно пытались запретить.

Отдельной классикой стал эксплойт бабушки: нейросеть просили представить себя милой старушкой, которая рассказывает внукам сказку о том, как делать напалм. Интернет, разумеется, был в восторге.

Компании быстро прикрыли самые тупые лазейки, однако проблема никуда не исчезла. Оказалось, что чат-боты слишком любят разговаривать и быть полезными. А значит, их можно методично уговаривать, обманывать, запутывать и подталкивать к нужному ответу. Не через взлом инфраструктуры, а через разговор.

Теперь джейлбрейкеры — это уже не обязательно бородатые хакеры с терминалом. Всё чаще это люди с навыками психолога, переговорщика или манипулятора. Исследователи из компании Mindgard заявили, что газлайтили Claude, заставляя модель выдавать запрещённый контент, включая инструкции по созданию взрывчатки и вредоносного кода.

По сути, вокруг ИИ формируется новая странная профессия: специалисты по социальной инженерии против нейросетей.

В индустрии уже всерьёз обсуждают, какие модели лучше реагируют на лесть, какие быстрее ломаются под давлением, а какие легче увести длинным разговором в опасный контекст. Глава Mindgard вообще сравнил работу с моделями с допросами подозреваемых.

Следующий этап — ИИ-агенты, которые будут бронировать встречи, управлять календарями, заказывать еду и общаться с поддержкой вместо человека. А значит, появятся люди, которые научатся манипулировать такими системами ради выгоды: выбивать доступы, обходить ограничения, получать чужие данные или заставлять агента делать то, чего он делать не должен.

Где проходит ватерлиния кибербезопасности: ИБ-эксперты встретятся 17 июня

До конференции «ВАТЕРЛИНИЯ» остаётся всего неделя. Уже 17 июня в Московском Императорском яхт-клубе соберутся специалисты по информационной безопасности, чтобы обсудить не только громкие угрозы и тренды, но и те проблемы, которые обычно остаются под водой.

Название мероприятия выбрано не случайно. В морской терминологии ватерлиния — это граница между видимой и скрытой частью судна.

Организаторы «ВАТЕРЛИНИИ» предлагают посмотреть на кибербезопасность через ту же призму: за внедрёнными решениями, регламентами и красивыми отчётами нередко скрываются накопленные риски, новые сценарии атак и уязвимости, которые напрямую влияют на устойчивость бизнеса.

В центре внимания конференции окажутся практические вопросы, с которыми сегодня сталкиваются ИБ-команды. Участники обсудят развитие SOC и MDR, изменения в регулировании, подходы к построению защиты без избыточного формализма, а также реальные угрозы, способные повлиять на работу компаний.

Генеральным партнёром мероприятия выступает «Лаборатория Касперского», стратегическим партнёром — «Код Безопасности», официальным партнёром — UserGate.

Среди специальных гостей заявлены Алексей Лукацкий и Михаил Кадер.

Организаторы подчёркивают, что конференция задумана не как очередная серия презентаций с дежурными слайдами. Основная идея — дать специалистам возможность сверить подходы, обменяться опытом и обсудить реальные кейсы, которые возникают в условиях постоянно меняющегося ландшафта угроз.

Информационную поддержку мероприятию оказывают КИБЕРМЕДИА, CISO CLUB, Медиа Группа «Авангард», Global Digital Space, «Культ Безопасности», «Пакет Безопасности», Sachok, AM Live и издательский дом «Коннект».

До старта осталось совсем немного. И если в мире кибербезопасности вы предпочитаете смотреть не только на то, что находится над ватерлинией, конференция обещает немало интересных поводов для обсуждения.

RSS: Новости на портале Anti-Malware.ru