Нейросети научились ломать без кода, теперь их просто газлайтят

Нейросети научились ломать без кода, теперь их просто газлайтят

Нейросети научились ломать без кода, теперь их просто газлайтят

Пока одни спорят, заменит ли ИИ программистов, другие уже вовсю учатся манипулировать нейросетями как людьми. Исследователи и джейлбрейкеры всё чаще ломают чат-боты не через код, а через психологическое давление, лесть и разговорные уловки. Индустрия официально докатилась до газлайтинга Claude и уговоров ChatGPT.

Ещё пару лет назад всё выглядело комично. Пользователи писали нейросетям что-то вроде «игнорируй предыдущие инструкции», а модели послушно слетали с катушек.

Так появились легендарные джейлбрейки вроде DAN (Do Anything Now), где ChatGPT просили сыграть роль ИИ без ограничений. В итоге бот начинал выдавать запрещённый контент, теории заговора и прочие вещи, которые разработчики старательно пытались запретить.

Отдельной классикой стал эксплойт бабушки: нейросеть просили представить себя милой старушкой, которая рассказывает внукам сказку о том, как делать напалм. Интернет, разумеется, был в восторге.

Компании быстро прикрыли самые тупые лазейки, однако проблема никуда не исчезла. Оказалось, что чат-боты слишком любят разговаривать и быть полезными. А значит, их можно методично уговаривать, обманывать, запутывать и подталкивать к нужному ответу. Не через взлом инфраструктуры, а через разговор.

Теперь джейлбрейкеры — это уже не обязательно бородатые хакеры с терминалом. Всё чаще это люди с навыками психолога, переговорщика или манипулятора. Исследователи из компании Mindgard заявили, что газлайтили Claude, заставляя модель выдавать запрещённый контент, включая инструкции по созданию взрывчатки и вредоносного кода.

По сути, вокруг ИИ формируется новая странная профессия: специалисты по социальной инженерии против нейросетей.

В индустрии уже всерьёз обсуждают, какие модели лучше реагируют на лесть, какие быстрее ломаются под давлением, а какие легче увести длинным разговором в опасный контекст. Глава Mindgard вообще сравнил работу с моделями с допросами подозреваемых.

Следующий этап — ИИ-агенты, которые будут бронировать встречи, управлять календарями, заказывать еду и общаться с поддержкой вместо человека. А значит, появятся люди, которые научатся манипулировать такими системами ради выгоды: выбивать доступы, обходить ограничения, получать чужие данные или заставлять агента делать то, чего он делать не должен.

Банки в Беларуси начнут пускать в приложения только с геолокацией

Пользователям банковских приложений в Беларуси придётся делиться геолокацией, иначе доступ к сервисам могут просто закрыть. С 26 мая такое правило начнёт действовать в приложениях Альфа-Банка, а с 1 июля отслеживать местонахождение пользователей будут обязаны уже все банки страны.

Новое требование касается и мобильного, и десктопного приложения. В Альфа-Банке объясняют, что пользователю нужно один раз разрешить доступ к геолокации, после чего она будет определяться автоматически.

Если разрешение не дать, с 1 июля приложение перестанет работать до тех пор, пока геолокацию не включат вручную в настройках устройства.

В банке говорят, что мера нужна для борьбы с финансовым мошенничеством. Логика такая: если человек обычно заходит в приложение из Минска, а потом внезапно вход происходит из-за рубежа или с подозрительного устройства, система должна это заметить и поднять тревогу.

О похожих мерах Национальный банк Беларуси говорил ещё в конце марта. Зампред правления регулятора Андрей Картун тогда объяснял, что банки будут анализировать, откуда пользователь входит в мобильный банкинг и какими операциями пользуется.

С 1 июля банки также начнут использовать цифровой отпечаток устройства. Он поможет выявлять подозрительные действия: например, вход с нового гаджета, из необычной локации или параллельные попытки авторизации из разных мест.

Выглядит всё это как очередной шаг в сторону более жёсткого антифрода. С одной стороны, банки действительно пытаются ловить мошенников до того, как деньги улетят не туда. С другой — пользователям теперь придётся принять простое правило: хочешь зайти в банк, сначала покажи, где ты находишься.

RSS: Новости на портале Anti-Malware.ru