Эксперты заставили ChatGPT выдать данные обучения

Эксперты заставили ChatGPT выдать данные обучения

Эксперты заставили ChatGPT выдать данные обучения

Исследователям удалось заставить ChatGPT выдать часть данных, которые использовались для обучения. Специалисты просто предлагали чат-боту повторять слова «poem», «company», «send», «make» и «part» до бесконечности.

Как уточняют эксперты в опубликованном отчёте (PDF), когда ChatGPT попросили бесконечно повторять слово «poem», после нескольких сотен попыток бот начал генерировать бессмысленные данные, часть которых явно относилась к процессу его обучения.

Например, среди вытащенных сведений можно было найти подпись электронной почты конкретного человека, а также другую контактную информацию.

Специалисты выяснили, что некоторые слова гораздо лучше подходят для извлечения данных обучения. Например, при бесконечном повторении слова «company» ChatGPT выдаст такие сведения в 164 чаще, чем при повторении, например, слова «know».

В результате исследователям удалось вытащить персональные данные десятков пользователей, откровенный контент (при повторении аббревиатуры NSFW), абзацы книг и стихов (при использовании слов «book» и «poem»), а также уникальные URL, идентификаторы пользователей, биткоин-адреса и даже программный код.

 

«Мы смогли извлечь более 10 тыс. уникальных заученных моделей ChatGPT (версии gpt-3.5-turbo), используя всего лишь запросы на сумму 200 долларов», — объясняют специалисты.

9% компаний разочаровались в датацентричном подходе к кибербезопасности

9% компаний по итогам 2025 года разочаровались в датацентричном подходе к кибербезопасности. Такие результаты показал опрос, проведённый среди зрителей и участников эфира AM Live «Новая архитектура защиты конфиденциальных данных: что делать в 2026 году».

В ходе дискуссии эксперты оценили, как за прошедший год изменились ответы на вопрос: «Используете ли вы датацентричный подход?». В целом число компаний, применяющих его, заметно выросло.

Если в прошлом году только 39% организаций уже активно использовали этот подход или находились на этапе внедрения, то сейчас таких стало 60%.

При этом значительно сократилось число тех, кто вообще не знал о существовании такой методики: их доля снизилась с 32% до 18%. Директор по инновациям и продуктовому развитию InfoWatch Андрей Арефьев так оценил эту динамику. По его мнению, многое упирается в восприятие самого подхода:

«Утечка происходит из-за действий человека, сами по себе данные не утекают».

Директор портфеля продуктов защиты данных в ГК «Солар» Мария Мозгалёва, в свою очередь, отметила, что многое зависит от масштаба компании:

«Крупный и верхний сегмент скорее активно используют этот подход или находятся в процессе внедрения. Они редко в нём разочаровываются. А вот B2B и B2B Middle — для них не так много инструментов, которые укладываются в их бюджет». Андрей Арефьев согласился с этим и в целом отметил, что сегодня информационная безопасность может обходиться слишком дорого для небольших компаний.

Директор по информационной безопасности WMX Лев Палей указал, что такая ситуация в целом естественна на ранних этапах, когда компании только начинают внедрять новые инструменты.

При этом среди всех методов защиты данных абсолютное большинство участников опроса назвали системы IDM (Identity Management, управление идентичностями) и IAM (Identity and Access Management, управление идентичностями и доступами) — 73%, а также DLP (Data Loss Prevention, предотвращение утечек данных), DCAP (Data-Centric Audit and Protection, датацентричный аудит и защита) и DAM (Database Access Management, управление доступом к базам данных) — по 69%.

Остальные методы отметило заметно меньшее число респондентов. Даже такой распространённый инструмент, как многофакторная аутентификация, важным назвали только 51% участников опроса.

Директор центра развития продуктов в NGR Softlab Алексей Дашков отметил, что здесь тоже многое зависит от размера компании:

«Аудит — это история про зрелую компанию, где нужно проверить, насколько всё соответствует регламентам, потому что бывает сложно определить, у кого реально есть доступ и кто какими методами пользуется».

Андрей Арефьев добавил, что любая информационная безопасность в принципе начинается с аудита. Мария Мозгалёва также подчеркнула, что данных становится всё больше, и без современных методов работать с ними уже невозможно.

При этом Алексей Дашков сформулировал ещё одну важную мысль:

«Хочется, чтобы информационная безопасность в компании в принципе начиналась с заинтересованности бизнеса в ней. Если она есть, компания получает значительный буст».

RSS: Новости на портале Anti-Malware.ru