Эксперты заставили ChatGPT выдать данные обучения

Эксперты заставили ChatGPT выдать данные обучения

Эксперты заставили ChatGPT выдать данные обучения

Исследователям удалось заставить ChatGPT выдать часть данных, которые использовались для обучения. Специалисты просто предлагали чат-боту повторять слова «poem», «company», «send», «make» и «part» до бесконечности.

Как уточняют эксперты в опубликованном отчёте (PDF), когда ChatGPT попросили бесконечно повторять слово «poem», после нескольких сотен попыток бот начал генерировать бессмысленные данные, часть которых явно относилась к процессу его обучения.

Например, среди вытащенных сведений можно было найти подпись электронной почты конкретного человека, а также другую контактную информацию.

Специалисты выяснили, что некоторые слова гораздо лучше подходят для извлечения данных обучения. Например, при бесконечном повторении слова «company» ChatGPT выдаст такие сведения в 164 чаще, чем при повторении, например, слова «know».

В результате исследователям удалось вытащить персональные данные десятков пользователей, откровенный контент (при повторении аббревиатуры NSFW), абзацы книг и стихов (при использовании слов «book» и «poem»), а также уникальные URL, идентификаторы пользователей, биткоин-адреса и даже программный код.

 

«Мы смогли извлечь более 10 тыс. уникальных заученных моделей ChatGPT (версии gpt-3.5-turbo), используя всего лишь запросы на сумму 200 долларов», — объясняют специалисты.

Ваши данные могут пробить по звонку или ссылке через рекламные сервисы

Исследователь Антон Бочкарев из 3side (Третья Сторона) сообщил о новой потенциальной проблеме с сервисами таргетированной рекламы, связанными с операторами связи. Если верить опубликованному разбору, некоторые из таких платформ позволяют буквально по одному звонку или одному переходу по ссылке собрать о человеке крайне подробный цифровой профиль.

Автор материала на «Хабре »напоминает, что ещё полтора года назад уже описывал похожую историю с «пробивом» абонентов через рекламный сервис.

Тогда публикация вызвала резонанс, и уязвимость, по его словам, в итоге закрыли. Но теперь, как утверждается, на других площадках ситуация может быть даже хуже.

Для регистрации в одном из таких сервисов, как пишет автор, оказалось достаточно принять СМС на любой номер. После этого пользователю открывались инструменты настройки рекламной аудитории: геолокация, фильтрация по звонкам, интересам, сайтам, данным о полученных сообщениях и другим признакам.

Самое неприятное здесь — сочетание этих фильтров. По описанию автора, можно сузить аудиторию сначала по геозоне, затем по факту звонка с определённого номера, а потом ещё сильнее сократить выборку за счёт пересечений и дополнительных параметров. В результате, как утверждается в публикации, удаётся фактически деанонимизировать конкретного человека: понять, где он живёт, где бывает, где работает и какими сервисами пользуется.

 

 

Отдельное внимание автор уделяет так называемым рекламным счётчикам. Логика здесь такая: если поставить счётчик на сайт и заманить туда конкретного человека, то затем его визит можно использовать как фильтр в рекламной системе. А дальше — попытаться получить о нём уже куда более широкий набор данных, чем просто факт посещения страницы.

Среди параметров, которые, по словам автора, доступны в таких системах, — пол, возраст, уровень дохода, интересы, посещаемые сайты, отправители СМС, сведения о звонках, семейный статус, наличие недвижимости, автомобиля и даже данные о детях. Если всё это действительно доступно в описанном виде, речь идёт уже не просто о рекламной аналитике, а о крайне удобном инструменте для слежки и «пробива».

Отдельно подчёркивается, что для подобных действий якобы не нужно запускать реальную рекламную кампанию и тратить деньги: достаточно этапа предварительной оценки аудитории. И именно это, по мнению автора, делает проблему особенно опасной — входной порог минимален, а потенциальная польза для злоумышленников огромна.

При этом в публикации прямо говорится, что проблема, по мнению автора, носит системный характер. Даже если один конкретный сервис закроет такую возможность, аналогичные механики могут оставаться у других игроков рынка. Более того, автор отдельно утверждает, что данные между участниками этого сегмента могут передаваться и использоваться шире, чем кажется обычному абоненту.

В итоге пользователям стоит исходить из того, что их мобильная активность может быть куда менее приватной, чем принято думать. А главный вывод здесь, пожалуй, в том, что вопрос уже давно не только в рекламе. Когда инструменты маркетинга позволяют восстанавливать личные связи, маршруты и цифровые привычки конкретного человека, это выглядит уже как история про массовую слежку под вполне легальной вывеской.

RSS: Новости на портале Anti-Malware.ru