Privacy Sandbox всё: Google признала провал борьбы со слежкой за юзерами

Privacy Sandbox всё: Google признала провал борьбы со слежкой за юзерами

Privacy Sandbox всё: Google признала провал борьбы со слежкой за юзерами

Команда Google, отвечающая за развитие Privacy Sandbox, объявила о сворачивании проекта, призванного найти баланс между стремлением пользователей сохранить приватность и желанием рекламщиков отслеживать их интересы.

Большинство технологий и API, созданных в рамках Privacy Sandboх, будут изъяты из репертуара Chrome и Android. В Google официально признали, что их шестилетние усилия по замене куки-трекинга более приемлемым решением оказались провальными.

Разработчики планировали вооружить рекламодателей инструментами для таргетинга и аналитики и при этом исключить идентификацию пользователей на основе куки. Проект Privacy Sandbox развивался как набор API — сначала для веба, потом и для Android.

Из-за сопротивления отрасли и низкого уровня внедрения предлагаемых новшеств Google никак не удавалось ввести блокировку сторонних куки в своих продуктах, и в итоге она была вынуждена завершить самостоятельные поиски альтернативы.

Из всех наработок на этом направлении было решено сохранить освоенные коллегами по цеху CHIPS (раздельное хранение куки-файлов в привязке к доменам верхнего уровня), FedCM (объединение сервисов идентификации, обеспечивающих конфиденциальность и работающих без сторонних куки) и Private State Token (идентификация пользователей по токену, сгенерированному на сайте в ходе авторизации и хранимому в браузере).

Технологии и API, поддержка которых будет прекращена в Chrome и Android:

  • Attribution Reporting — оценка эффективности рекламы без нарушения конфиденциальности; будет заменена API Attribution стандарта W3C;
  • IP Protection — сокрытие IP-адреса пользователя при посещении сайтов;
  • On-Device Personalization — персонализация работы пользователя на Android-устройстве, использующая локально хранимые данные (защита от компаний, с которыми юзер не взаимодействовал);
  • Private Aggregation агрегирование данных, используемых разными сайтами (частота посещений, демография);
  • Protected Audience — работа с пользователями, ранее посещавшими сайт;
  • Protected App Signals — сохранение информации о работе пользователя с приложениями в интересах показа рекламы;
  • Related Website Sets — определение взаимосвязи между сайтами, на основе которой браузеры могут допускать ограниченный межсайтовый доступ к данным;
  • SelectURL — отображение контента в iframe на основе межсайтовых данных о пользователе из общего хранилища (данные хранятся в формате ключ-значение и без привязки к домену);
  • SDK Runtime — возможность запуска сторонних библиотек в изолированном процессе (отдельно от процесса Android-приложения);
  • Topics (заменил API FLoC) — собирает данные о предпочтениях пользователей Chrome и Android на основе активности в браузере, но без использования куки.
AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru