Firefox получит новую защиту от отслеживания — Network Partitioning

Firefox получит новую защиту от отслеживания — Network Partitioning

Firefox получит новую защиту от отслеживания — Network Partitioning

В браузере Firefox 85, выпуск которого ожидается в январе, по умолчанию включат новую защитную функцию — Network Partitioning (разделение сетевых ресурсов). Нововведение призвано улучшить защиту от идентификации пользователя и отслеживания его перемещений в интернете.

Новая функциональность реализует концепцию Client-Side Storage Partitioning — разделение хранилищ данных на стороне клиента. Этот стандарт в настоящее время разрабатывает Рабочая группа по проблемам приватности, созданная на базе консорциума W3C.

При навигации в интернете на стороне клиента могут сохраняться такие данные, как пользовательские настройки для сайтов, созданные пользователем документы и копии, пригодные для работы в автономном режиме, и многое другое. Использование локальных хранилищ, создаваемых с помощью API-интерфейсов JavaScript, позволяет персонализировать настройки сайтов, ускорить их загрузку в браузере, а также запоминать данные авторизации посетителей и их предыдущую активность — к примеру, содержимое корзины покупок в магазине или пакет музыкальных файлов для онлайн-игры.

Самой известной формой хранения информации на стороне клиента являются куки-файлы, использование которых во многих странах регламентируется на законодательном уровне. Современные браузеры также поддерживают разнообразные API, позволяющие сохранять такие данные, как имя пользователя, успешный/неудачный вход в систему, изображения, фавиконы, шрифты, HTTP-ответы на конкретные запросы, заголовки CORS (Cross-Origin Resource Sharing, позволяют User Agent получить разрешение на доступ к ресурсам в другом домене) и т. п.

Весь этот объем информации совместно используется сайтами, что значительно облегчает отслеживание действий пользователя в интернете, в том числе в целях показа незапрошенной рекламы. Функциональность Network Partitioning позволит Firefox разделить пул хранимых ресурсов на фрагменты и осуществлять поиск записей в кешах по ключу — URL и публичному суффиксу домена (eTLD).

Согласно Mozilla, новая защитная функция Firefox позволит фрагментировать следующие ресурсы:

  • кеш HTTP
  • кеш изображений
  • кеш фавиконов
  • пул соединений
  • кеш таблиц стилей
  • DNS
  • данные HTTP-аутентификации
  • HTTP-заголовки Alt-Svc
  • соединения с упреждающим чтением
  • кеш шрифтов
  • соединения HSTS (HTTP Strict Transport Security, с принудительным переходом на HTTPS)
  • результаты использования протокола OCSP (Online Certificate Status Protocol, позволяет получить данные об отзыве сертификата X.509)
  • кеш промежуточных сертификатов
  • сертификаты TLS-клиентов
  • идентификаторы TLS-сессий
  • предзагрузка контента
  • упреждающие соединения
  • кеш CORS-заголовков в предполетных запросах

Стоит отметить, что Firefox — далеко не первый браузер, реализующий технологию Network Partitioning. В Safari, например, эта защита используется уже очень давно, а в Chrome она заработала с выходом версии 86. К сожалению, разграничение хранилищ может заметно тормозить работу браузера — ведь ему теперь приходится загружать файлы не из общего пула, а для каждого сайта в отдельности.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru