Нейросети научились ломать без кода, теперь их просто газлайтят

Нейросети научились ломать без кода, теперь их просто газлайтят

Нейросети научились ломать без кода, теперь их просто газлайтят

Пока одни спорят, заменит ли ИИ программистов, другие уже вовсю учатся манипулировать нейросетями как людьми. Исследователи и джейлбрейкеры всё чаще ломают чат-боты не через код, а через психологическое давление, лесть и разговорные уловки. Индустрия официально докатилась до газлайтинга Claude и уговоров ChatGPT.

Ещё пару лет назад всё выглядело комично. Пользователи писали нейросетям что-то вроде «игнорируй предыдущие инструкции», а модели послушно слетали с катушек.

Так появились легендарные джейлбрейки вроде DAN (Do Anything Now), где ChatGPT просили сыграть роль ИИ без ограничений. В итоге бот начинал выдавать запрещённый контент, теории заговора и прочие вещи, которые разработчики старательно пытались запретить.

Отдельной классикой стал эксплойт бабушки: нейросеть просили представить себя милой старушкой, которая рассказывает внукам сказку о том, как делать напалм. Интернет, разумеется, был в восторге.

Компании быстро прикрыли самые тупые лазейки, однако проблема никуда не исчезла. Оказалось, что чат-боты слишком любят разговаривать и быть полезными. А значит, их можно методично уговаривать, обманывать, запутывать и подталкивать к нужному ответу. Не через взлом инфраструктуры, а через разговор.

Теперь джейлбрейкеры — это уже не обязательно бородатые хакеры с терминалом. Всё чаще это люди с навыками психолога, переговорщика или манипулятора. Исследователи из компании Mindgard заявили, что газлайтили Claude, заставляя модель выдавать запрещённый контент, включая инструкции по созданию взрывчатки и вредоносного кода.

По сути, вокруг ИИ формируется новая странная профессия: специалисты по социальной инженерии против нейросетей.

В индустрии уже всерьёз обсуждают, какие модели лучше реагируют на лесть, какие быстрее ломаются под давлением, а какие легче увести длинным разговором в опасный контекст. Глава Mindgard вообще сравнил работу с моделями с допросами подозреваемых.

Следующий этап — ИИ-агенты, которые будут бронировать встречи, управлять календарями, заказывать еду и общаться с поддержкой вместо человека. А значит, появятся люди, которые научатся манипулировать такими системами ради выгоды: выбивать доступы, обходить ограничения, получать чужие данные или заставлять агента делать то, чего он делать не должен.

В Telegram из APKPure нашли подозрительный сборщик данных

Сторонние магазины приложений снова подкинули пользователям повод понервничать. Исследователь Эрик Паркер обнаружил в клиенте Telegram из APKPure подозрительный код, который, судя по всему, занимается совсем не тем, чего ждёшь от мессенджера. Вместо обычной переписки — сбор пользовательских данных и отправка их на сторонний сервер.

По словам Паркера, во время декомпиляции APK-файла он нашёл в приложении класс DataCollector. В обычной версии Telegram такой логики нет.

Судя по найденному коду, клиент мог отправлять на сторонний сервер номера телефонов, данные профиля, файлы с устройства, фотографии, видео, документы и информацию сим-карты. В коде также был прописан адрес сервера, расположенного в Гонконге.

Самое неприятное — вызовы методов для отправки данных были встроены в рабочие участки приложения и срабатывали при входе в аккаунт. То есть пользователь открывает Telegram, аутентифицируется, а дальше где-то в фоне может стартовать несанкционированная экскурсия по его данным.

 

Редакция «Кода Дурова» дополнительно проверила сборку и выяснила, что Telegram из APKPure подписан не той цифровой подписью, что официальный клиент с сайта мессенджера. А это уже жирный красный флаг: приложение может выглядеть как Telegram, называться Telegram и даже работать как Telegram, но быть при этом совершенно другой сборкой.

Любопытный момент: при проверке через VirusTotal на сторонний APK среагировал только один антивирус из 56. Вероятно, дело в свежести сборки, защитные решения ещё просто не успели нормально её распознать. При этом Паркер не нашёл подозрительный DataCollector в официальной стабильной версии Telegram.

RSS: Новости на портале Anti-Malware.ru