Нейросети научились ломать без кода, теперь их просто газлайтят

Нейросети научились ломать без кода, теперь их просто газлайтят

Нейросети научились ломать без кода, теперь их просто газлайтят

Пока одни спорят, заменит ли ИИ программистов, другие уже вовсю учатся манипулировать нейросетями как людьми. Исследователи и джейлбрейкеры всё чаще ломают чат-боты не через код, а через психологическое давление, лесть и разговорные уловки. Индустрия официально докатилась до газлайтинга Claude и уговоров ChatGPT.

Ещё пару лет назад всё выглядело комично. Пользователи писали нейросетям что-то вроде «игнорируй предыдущие инструкции», а модели послушно слетали с катушек.

Так появились легендарные джейлбрейки вроде DAN (Do Anything Now), где ChatGPT просили сыграть роль ИИ без ограничений. В итоге бот начинал выдавать запрещённый контент, теории заговора и прочие вещи, которые разработчики старательно пытались запретить.

Отдельной классикой стал эксплойт бабушки: нейросеть просили представить себя милой старушкой, которая рассказывает внукам сказку о том, как делать напалм. Интернет, разумеется, был в восторге.

Компании быстро прикрыли самые тупые лазейки, однако проблема никуда не исчезла. Оказалось, что чат-боты слишком любят разговаривать и быть полезными. А значит, их можно методично уговаривать, обманывать, запутывать и подталкивать к нужному ответу. Не через взлом инфраструктуры, а через разговор.

Теперь джейлбрейкеры — это уже не обязательно бородатые хакеры с терминалом. Всё чаще это люди с навыками психолога, переговорщика или манипулятора. Исследователи из компании Mindgard заявили, что газлайтили Claude, заставляя модель выдавать запрещённый контент, включая инструкции по созданию взрывчатки и вредоносного кода.

По сути, вокруг ИИ формируется новая странная профессия: специалисты по социальной инженерии против нейросетей.

В индустрии уже всерьёз обсуждают, какие модели лучше реагируют на лесть, какие быстрее ломаются под давлением, а какие легче увести длинным разговором в опасный контекст. Глава Mindgard вообще сравнил работу с моделями с допросами подозреваемых.

Следующий этап — ИИ-агенты, которые будут бронировать встречи, управлять календарями, заказывать еду и общаться с поддержкой вместо человека. А значит, появятся люди, которые научатся манипулировать такими системами ради выгоды: выбивать доступы, обходить ограничения, получать чужие данные или заставлять агента делать то, чего он делать не должен.

Фейковый Google Play маскирует онлайн-казино под приложения Tesco, Amazon

Мошенники нашли красивую упаковку для старой схемы: берут известный бренд, рисуют фейковую страницу Google Play, запускают рекламу в соцсетях и под видом официального приложения ведут пользователя в онлайн-казино. В объявлениях злоумышленники используют названия и визуальный стиль известных компаний, включая Tesco, Amazon, Monzo, Revolut и стриминговые сервисы.

По данным Netcraft, кампания продвигается через платную рекламу в Facebook, Instagram, Threads (все три принадлежат корпорации Meta, признанной экстремистской и запрещённой в России) и TikTok.

Где-то всё выглядит примитивно — просто «Brand Slots». А где-то уже почти спектакль: поддельные интерфейсы, фальшивые отзывы, липовые данные из магазинов приложений и даже ИИ-видео с якобы сотрудниками бренда.

 

Главная легенда — официальный запуск слотов или казино-приложения от известной компании. Пользователь кликает по рекламе и попадает на страницу, похожую на Google Play, App Store или сайт бренда. Но кнопка «Install» не ведёт в настоящий магазин приложений. Вместо этого браузер предлагает добавить на главный экран PWA — прогрессивное веб-приложение.

После установки такая штука выглядит как обычное приложение: с иконкой, названием и оформлением под бренд. На деле это тонкая обёртка, которая открывает сторонний сайт онлайн-казино. То есть пользователь думал, что ставит «Amazon Slots» или «Monzo Slots», а получил ярлык на азартную площадку.

Netcraft считает, что схему подпитывает партнёрская экономика. В PWA и ссылках есть параметры, которые позволяют отслеживать регистрации и депозиты. По открытым данным, выплаты за игрока, внесшего депозит, могут составлять от $50 до $350. С такими ставками мошенникам есть смысл вкладываться в правдоподобные объявления и массовый запуск рекламы.

В некоторых кампаниях использовались фейковые страницы с вымышленными разработчиками, скачиваниями и отзывами. Были и интерактивные приманки вроде колеса удачи с гарантированным выигрышем, после которого пользователя просили установить PWA, чтобы забрать приз.

Опасность здесь не только в потерянных деньгах. Такие PWA размывают границу между настоящим приложением и подделкой: браузерная оболочка минимальна, и всё выглядит почти как фирменный сервис. Только фирменного там — разве что украденный логотип.

RSS: Новости на портале Anti-Malware.ru