Ошибка ChatGPT привела к утечке личных промптов в Google Search Console

Ошибка ChatGPT привела к утечке личных промптов в Google Search Console

Ошибка ChatGPT привела к утечке личных промптов в Google Search Console

Несколько месяцев подряд в Google Search Console — инструменте, который веб-мастера используют для анализа поискового трафика, — появляются очень странные запросы. Вместо привычных коротких ключевых слов там стали попадаться целые абзацы текста — личные обращения пользователей к ChatGPT.

Иногда длина таких «запросов» превышала 300 символов, а по содержанию они выглядели как частные разговоры: кто-то спрашивал совет по отношениям, кто-то обсуждал рабочие вопросы.

Проблему первым заметил аналитик Джейсон Пакер из компании Quantable. Он опубликовал запись в блоге, где рассказал о десятках подобных случаев, а позже объединился с SEO-экспертом Слободаном Маничем, чтобы разобраться, откуда берутся эти данные.

По их версии, найденной утечке нет аналогов: ChatGPT будто бы напрямую отправлял пользовательские запросы в Google Search, а затем те каким-то образом оказывались в отчётах GSC. Эксперты уверены, что речь идёт о «первом доказательстве того, что OpenAI действительно обращается к поиску Google с реальными пользовательскими промптами».

OpenAI комментировать гипотезу напрямую отказалась, но подтвердила, что «осведомлена о проблеме» и уже исправила ошибку, которая якобы «затронула небольшое количество поисковых запросов».

Пакер, впрочем, не убеждён, что всё так просто. Он считает, что компания не дала прямого ответа на главный вопрос — действительно ли OpenAI сканировала Google и передавала туда пользовательские промпты. Google ситуацию не прокомментировала.

Первые утёкшие фразы Пакер заметил ещё в сентябре. Среди них — поток сознания от девушки, пытавшейся понять, нравится ли она парню, и деловое сообщение офис-менеджера, обсуждающего возвращение сотрудников в офис. Всего Пакер насчитал около двухсот подобных записей только на одном сайте.

Дальнейшее расследование показало, что все эти запросы начинались с одинакового URL:
https://openai.com/index/chatgpt/

Google, как предполагают исследователи, разделил адрес на отдельные слова — openai, index, chatgpt — и начал воспринимать их как поисковый запрос. Из-за этого сайты, которые хорошо ранжировались по этим словам, начали видеть в своей консоли чужие фразы пользователей ChatGPT.

Пакер и Манич полагают, что причиной стала ошибка в одном из интерфейсов ChatGPT. При вводе запроса на странице с параметром hints=search модель почти всегда выполняла реальный поиск в интернете — и использовала при этом Google. Из-за сбоя ChatGPT добавлял к поисковому запросу часть адреса страницы и передавал всё это в Google как обычный поисковый запрос.

Поскольку запросы не шли через API, а именно через открытый поиск, они начали появляться в отчётах Search Console у тех сайтов, которые Google выбрал в результатах.

Пакер считает, что так утекали все промпты, где ChatGPT принимал решение искать сделать поиск в Google. OpenAI заявила, что инцидент затронул «небольшое количество запросов», но не уточнила, сколько именно пользователей могли пострадать.

Ранее уже была похожая история, когда пользовательские чаты ChatGPT попадали в индекс Google. Тогда OpenAI объяснила, что пользователи сами «неосознанно» сделали их публичными, поставив соответствующую галочку.

В этот раз, подчёркивает Пакер, всё гораздо хуже: никто ничего не публиковал добровольно. Пользователи просто писали запросы — и часть этих сообщений могла оказаться в инструментах аналитики чужих сайтов.

Эксперты называют ситуацию «менее опасной, но куда более странной». И хотя OpenAI утверждает, что проблема уже устранена, Пакер и Манич уверены: вопросов всё ещё больше, чем ответов.

Главный из них — перестала ли OpenAI вообще использовать Google Search для сбора данных, или просто изменила способ отправки запросов. Пока компания этого не уточнила.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Whisper Leak: новая атака раскрывает темы диалогов с ИИ даже при шифровании

Исследователи Microsoft рассказали о новом векторе кибератаки под кодовым названием Whisper Leak. Он позволяет злоумышленникам вычислять, о чём человек разговаривает с искусственным интеллектом, даже если весь трафик зашифрован.

Наблюдая за сетевым трафиком между пользователем и языковой моделью, атакующий может анализировать размеры и интервалы передачи пакетов, чтобы определить тему диалога.

При этом содержимое сообщений остаётся зашифрованным, но характер обмена данными оказывается достаточно информативным, чтобы классифицировать разговор.

Как предупредила Microsoft, в зоне риска находятся пользователи, чей трафик может быть перехвачен — например, на уровне интернет-провайдера, в локальной сети или при подключении к общему Wi-Fi.

Исследователи отмечают, что атака может применяться для слежки за темами вроде финансовых операций, политических обсуждений или других конфиденциальных запросов.

Whisper Leak использует особенности потоковой генерации ответов (streaming mode), когда языковая модель отправляет текст постепенно, а не целиком после завершения обработки. Это даёт злоумышленнику возможность фиксировать различия в размерах и частоте пакетов данных, а затем с помощью алгоритмов машинного обучения — таких как LightGBM, Bi-LSTM и BERT — определять, к какой теме относится запрос.

 

По данным Microsoft, при тестировании многие модели — включая решения от Alibaba, DeepSeek, Mistral, Microsoft, OpenAI и xAI — показали точность классификации выше 98%. У моделей Google и Amazon результаты были лучше за счёт иной архитектуры, но и они оказались не полностью защищены.

После уведомления об уязвимости компании OpenAI, Microsoft, Mistral и xAI внедрили меры защиты. Одним из эффективных методов стало добавление случайных текстовых вставок переменной длины в ответы модели. Это делает размеры пакетов менее предсказуемыми и мешает анализировать поток данных.

Microsoft также рекомендует пользователям избегать обсуждения конфиденциальных тем при работе с чат-ботами через общественные сети, использовать VPN, по возможности выбирать непотоковые версии моделей и отдавать предпочтение сервисам, уже внедрившим защиту от подобных атак.

По сути, Whisper Leak показывает, что даже шифрование не всегда гарантирует приватность, если злоумышленник умеет «слушать» не слова, а ритм и объём разговора с искусственным интеллектом.

Подробнее о тёмной стороне искусственного интеллекта, а также угрозах, которые он несёт, можно почитать в нашей статье.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru