Языковые модели тупеют от мусорных данных из интернета

Языковые модели тупеют от мусорных данных из интернета

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

Recall в Windows 11 может записывать пароли и банковские данные

Переход на Windows 11 долго считался вопросом времени. Рано или поздно, дескать, всё равно придётся. Однако теперь специалисты по защите данных всё чаще говорят обратное: если вам важна конфиденциальность, с обновлением лучше повременить.

Поводом для тревоги стала ИИ-функция Recall, о которой пишет PCWorld. Она способна автоматически сохранять скриншоты экрана и, по мнению экспертов, может фиксировать важные данные: пароли, банковскую информацию, медицинские сведения и другую информацию.

Организация Centre for Digital Rights and Democracy прямо рекомендует пользователям, работающим с конфиденциальными данными, избегать Windows 11 вообще. Причина простая: даже если Recall отключён, он остаётся частью операционной системы.

Microsoft утверждает, что функция доступна только на Copilot+ PC, но, как отмечают эксперты, Recall обнаружен на всех компьютерах с Windows 11 версии 24H2. А значит, теоретически его можно активировать через обновления и без согласия пользователя.

Пока Recall встроен в систему, он рассматривается как потенциальный риск, а постоянная запись экранного контента, по мнению правозащитников, может даже нарушать требования GDPR.

Специалисты по защите данных выделяют несколько сценариев — с разной степенью риска:

  • Остаться на Windows 10, пока она получает патчи.
    Самый надёжный вариант, но только до октября 2026 года, когда закончится программа расширенной поддержки.
  • Перейти на Windows 11 и отключить Recall.
    Частично снижает риски, но не решает проблему полностью: функция остаётся в системе.
  • Перейти на Windows 11 и довериться Microsoft.
    Эксперты оценивают этот вариант как наименее безопасный — политика компании может измениться в любой момент.

С учётом того, что у Windows 10 есть чёткая дата окончания поддержки, правозащитники всё чаще советуют заранее рассматривать альтернативы, в первую очередь — Linux, как более прозрачную и контролируемую платформу.

«Ситуация вокруг Windows 11 наглядно показывает, к каким последствиям может привести поспешное внедрение новых технологий. Стремясь как можно быстрее вывести на рынок ИИ-функции, Microsoft сталкивается с серьёзными вопросами безопасности. Для коммерческих организаций — особенно в финансовом секторе, государственных структурах и на объектах критической информационной инфраструктуры — такие риски недопустимы.

Операционная система Astra Linux изначально разрабатывалась с фокусом на защиту корпоративных данных: безопасность здесь не дополнительная надстройка, а базовый элемент архитектуры. В платформе реализованы развитые механизмы защиты, включая мандатный контроль целостности (МКЦ), который обеспечивает комплексный подход — предотвращает несанкционированный доступ к данным, контролирует целостность системных файлов и блокирует их модификацию, разграничивает доступ на уровне процессов и надёжно защищает от утечек информации.

Эти механизмы проверены временем и позволяют нашим заказчикам быть уверенными в сохранности критически важной информации», — прокомментировал Роман Мылицын, руководитель отдела перспективных исследований «Группы Астра».

RSS: Новости на портале Anti-Malware.ru