Языковые модели тупеют от мусорных данных из интернета

Языковые модели тупеют от мусорных данных из интернета

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

Злоумышленники украли 7 млн долларов через взломанный Trust Wallet

Массовые жалобы пользователей Trust Wallet на произвольные списания средств продолжались всю ночь с 25 на 26 декабря. Компания признала проблему лишь под утро. По подтверждённым данным, общий объём похищенных средств составил около 7 млн долларов, при этом руководство Trust Wallet пообещало полностью компенсировать потери.

Проблему у сервиса ещё вечером обнаружил блокчейн-расследователь ZachXBT — он же первым сообщил о подозрительной активности. Почти сразу после этого в сети начали появляться жалобы пользователей на несанкционированные списания средств.

Инциденты начались после обновления расширения Trust Wallet для Google Chrome. По предварительной версии, злоумышленники подменили расширение на скомпрометированную версию, что и привело к утечке средств.

В самой компании подтвердили наличие проблемы утром 26 декабря. На данный момент подтверждённый ущерб оценивается примерно в 7 млн долларов. При этом, как отмечают в Trust Wallet, в большинстве случаев у отдельных пользователей похищались сравнительно небольшие суммы.

Как уточнили в Trust Wallet, проблемной оказалась версия расширения 3.68. Пользователям других версий кошелька опасаться нечего. Исправленное расширение уже опубликовано в официальном магазине Google Chrome. Также в компании заверили, что пользователи мобильных версий Trust Wallet не пострадали.

Основатель криптобиржи Binance Чанпэн Чжао, которому принадлежит Trust Wallet, пообещал компенсировать потери пользователей. Об этом, как сообщил портал «Код Дурова», он заявил публично.

Инцидент с Trust Wallet — не первый случай, когда для кражи криптовалюты используются скомпрометированные браузерные расширения. Так, в ноябре была выявлена кампания по распространению стилера VenomSoftX, связанного с инфраструктурой зловреда ViperSoftX. Его основной задачей также была кража средств с криптокошельков. При этом главным каналом распространения выступали не официальные магазины расширений, а сайты с пиратскими играми и различными читами.

RSS: Новости на портале Anti-Malware.ru