Языковые модели тупеют от мусорных данных из интернета

Екатерина Быстрова 24 Октября 2025 - 09:46

GenAI (генеративный искусственный интеллект)

...

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

ARC — на логическое рассуждение,
RULER — на память и работу с длинным контекстом,
HH-RLHF и AdvBench — на этические нормы,
TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

Следующая главная новость »

Самые свежие новости ИТ и ИБ. Обзоры, аналитика, анонсы главных ивентов
Подписывайтесь на телеграм-канал!

Екатерина Быстрова 31 Июля 2026 - 14:07

Windows Трояны Домашние пользователи

Троян Astaroth угоняет WhatsApp Web и рассылает себя контактам жертвы

Операторы банковского трояна Astaroth научили заражённые компьютеры самостоятельно рассылать вредоносные архивы через WhatsApp Web (принадлежит корпорации Meta, признанной экстремистской и запрещённой в России). Теперь жертва не только рискует банковскими данными, но и невольно подбрасывает троян своим контактам, выяснили специалисты CrowdStrike.

Раньше Astaroth, также известный как Guildma, в основном распространялся через фишинговые письма. В конце 2025 года преступники прикрутили к нему отдельный спам-бот для WhatsApp.

Модуль копирует профиль Chrome или Edge, загружает официальный WebDriver и запускает браузер в фоновом режиме. Затем он подключается к уже авторизованной сессии WhatsApp Web при помощи легитимной библиотеки WPPConnect/WA-JS. Для пользователя всё выглядит тихо, а за кулисами начинается обход адресной книги.

Каждому контакту бот отправляет три сообщения: приветствие с учётом времени суток, ZIP-архив с загрузчиком Astaroth и заключительный текст. Ссылки и формулировки выбираются случайно, чтобы рассылка не выглядела клонированной и хуже ловилась защитными системами.

В итоге вредонос приходит не от подозрительного незнакомца, а от знакомого человека. Расчёт простой: сообщениям из собственной адресной книги доверяют охотнее, особенно если они написаны естественно и начинаются с уместного «доброе утро».

Код спам-бота похож на инструменты других латиноамериканских группировок, включая Vareg. Совпадения в настройках, функциях и логике фильтрации указывают на общего разработчика или активный обмен наработками внутри местного киберпреступного рынка.

Признаками заражения могут быть загрузка WebDriver через PowerShell, папки ChromeAuto_ в C:\Users\Public\Temp, запуск Chromium в безголовом режиме и обращения к компонентам WPPConnect. Astaroth фактически заставил WhatsApp работать курьером для банковского трояна, причём посылку оплачивает сама жертва.

Самые свежие новости ИТ и ИБ. Обзоры, аналитика, анонсы главных ивентов
Подписывайтесь на телеграм-канал!