Ошибка ChatGPT привела к утечке личных промптов в Google Search Console

Ошибка ChatGPT привела к утечке личных промптов в Google Search Console

Ошибка ChatGPT привела к утечке личных промптов в Google Search Console

Несколько месяцев подряд в Google Search Console — инструменте, который веб-мастера используют для анализа поискового трафика, — появляются очень странные запросы. Вместо привычных коротких ключевых слов там стали попадаться целые абзацы текста — личные обращения пользователей к ChatGPT.

Иногда длина таких «запросов» превышала 300 символов, а по содержанию они выглядели как частные разговоры: кто-то спрашивал совет по отношениям, кто-то обсуждал рабочие вопросы.

Проблему первым заметил аналитик Джейсон Пакер из компании Quantable. Он опубликовал запись в блоге, где рассказал о десятках подобных случаев, а позже объединился с SEO-экспертом Слободаном Маничем, чтобы разобраться, откуда берутся эти данные.

По их версии, найденной утечке нет аналогов: ChatGPT будто бы напрямую отправлял пользовательские запросы в Google Search, а затем те каким-то образом оказывались в отчётах GSC. Эксперты уверены, что речь идёт о «первом доказательстве того, что OpenAI действительно обращается к поиску Google с реальными пользовательскими промптами».

OpenAI комментировать гипотезу напрямую отказалась, но подтвердила, что «осведомлена о проблеме» и уже исправила ошибку, которая якобы «затронула небольшое количество поисковых запросов».

Пакер, впрочем, не убеждён, что всё так просто. Он считает, что компания не дала прямого ответа на главный вопрос — действительно ли OpenAI сканировала Google и передавала туда пользовательские промпты. Google ситуацию не прокомментировала.

Первые утёкшие фразы Пакер заметил ещё в сентябре. Среди них — поток сознания от девушки, пытавшейся понять, нравится ли она парню, и деловое сообщение офис-менеджера, обсуждающего возвращение сотрудников в офис. Всего Пакер насчитал около двухсот подобных записей только на одном сайте.

Дальнейшее расследование показало, что все эти запросы начинались с одинакового URL:
https://openai.com/index/chatgpt/

Google, как предполагают исследователи, разделил адрес на отдельные слова — openai, index, chatgpt — и начал воспринимать их как поисковый запрос. Из-за этого сайты, которые хорошо ранжировались по этим словам, начали видеть в своей консоли чужие фразы пользователей ChatGPT.

Пакер и Манич полагают, что причиной стала ошибка в одном из интерфейсов ChatGPT. При вводе запроса на странице с параметром hints=search модель почти всегда выполняла реальный поиск в интернете — и использовала при этом Google. Из-за сбоя ChatGPT добавлял к поисковому запросу часть адреса страницы и передавал всё это в Google как обычный поисковый запрос.

Поскольку запросы не шли через API, а именно через открытый поиск, они начали появляться в отчётах Search Console у тех сайтов, которые Google выбрал в результатах.

Пакер считает, что так утекали все промпты, где ChatGPT принимал решение искать сделать поиск в Google. OpenAI заявила, что инцидент затронул «небольшое количество запросов», но не уточнила, сколько именно пользователей могли пострадать.

Ранее уже была похожая история, когда пользовательские чаты ChatGPT попадали в индекс Google. Тогда OpenAI объяснила, что пользователи сами «неосознанно» сделали их публичными, поставив соответствующую галочку.

В этот раз, подчёркивает Пакер, всё гораздо хуже: никто ничего не публиковал добровольно. Пользователи просто писали запросы — и часть этих сообщений могла оказаться в инструментах аналитики чужих сайтов.

Эксперты называют ситуацию «менее опасной, но куда более странной». И хотя OpenAI утверждает, что проблема уже устранена, Пакер и Манич уверены: вопросов всё ещё больше, чем ответов.

Главный из них — перестала ли OpenAI вообще использовать Google Search для сбора данных, или просто изменила способ отправки запросов. Пока компания этого не уточнила.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Оборот генетических данных россиян могут ужесточить

Правительственная комиссия по законопроектной деятельности одобрила инициативу Минобрнауки, направленную на ограничение трансграничной передачи генетических данных граждан России — как в натуральной, так и в цифровой форме. Документ распространит действие закона о государственном регулировании в области генно-инженерной деятельности на сферу обращения генетической информации человека.

Об одобрении инициативы сообщили «Ведомости» со ссылкой на свои источники. Если проект будет принят, новые нормы вступят в силу в сентябре 2026 года.

Передача генетических данных в любой форме — будь то биоматериалы или цифровая информация — будет разрешена лишь в ограниченных случаях:

  • для оказания медицинской помощи;
  • для разработки лекарственных средств и биомедицинских продуктов;
  • в рамках международного сотрудничества в сфере здравоохранения и биологической безопасности.

Под запрет попадёт передача за рубеж результатов популяционных генетических и иммунологических исследований. Под «передачей» будет пониматься любой способ — от публикации данных в интернете и пересылки до предоставления дистанционного доступа.

Порядок и условия передачи генетической информации установит правительство. Оно также определит требования к физическим и юридическим лицам, осуществляющим такую деятельность.

По словам руководителя направления «Разрешение IT & IР-споров» юридической фирмы «Рустам Курмаев и партнёры» Ярослава Шицле, ранее отдельного механизма защиты генетических данных не существовало. В целом же их обращение уже подпадает под нормы законодательства о защите персональных данных.

Необходимые правовые положения появились в России ещё в 2017 году, а в 2024-м ответственность за их нарушение была усилена. По оценке Ярослава Шицле, новые меры направлены, в том числе, на поддержку российских компаний, работающих в сфере хранения биоданных.

Как отметила директор Института экономики здравоохранения НИУ ВШЭ Лариса Попович, ряд стран, включая Китай, уже установили жёсткие ограничения на оборот генетических данных. Это связано с опасениями по поводу создания биологически активных веществ, ориентированных на определённые этнические группы.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru