Утечка учетных записей на PaneraBread превышает 37 миллионов

Утечка учетных записей на PaneraBread превышает 37 миллионов

Утечка учетных записей на PaneraBread превышает 37 миллионов

Вчера, 2 апреля, Брайан Крэбс опубликовал в своем блоге krebsonsecurity материал, в котором сайт PaneraBread.com обвиняется в утечке персональных данных клиентов. По последним подсчетам количество учетных данных превышает 37 миллионов. После публикации сайт находится в оффлайн-режиме. 

На сайте онлайн-пекарень информация о клиентах - имена, адреса электронной почты и физические адреса, дни рождения и последние четыре цифры номера кредитной карты клиента, были доступны в виде обычного текста. В их список попали клиенты, которые оформили онлайн заказ. 

Учетные данные клиентов PaneraBread (Изображение krebsonsecurity)

Первая утечка информации произошла как минимум восемь месяцев назад, когда её впервые заметил эксперт по информационной безопасности Дилан Хулихан. Он сообщил об этом сайту, на что ему ответили обещанием исправить ситуацию в ближайшее время. И все это время, как сообщил Хулихан Крэбсу, база данных клиентов только увеличивалась, а утечка не прекращалась. 

Некоторые записи клиентов включают в себя уникальные идентификаторы, которые увеличиваются на единицу при каждой новой записи, что делает её простой для того, чтобы кто-то мог собрать все доступные учетные записи клиентов. Формат базы данных также позволяет любому пользователю искать различные точки данных, в том числе по номеру телефона.

Наибольшая угроза состоит в том, что информацию о клиентах можно проиндексировать и отсканировать с минимальными усилиями. 

«Panera Bread использует последовательные целые числа для идентификаторов учетных записей, а это означает, что если ваша цель состоит в том, чтобы собрать как можно больше информации, а не найти конкретно чью-то, то вы можете собрать сколько пожелаете, вплоть до всей базы данных », - сказал Хулихан.

 

После публикации Крэбса и до сих пор сайт PaneraBread неактивен.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru