Языковые модели тупеют от мусорных данных из интернета

Языковые модели тупеют от мусорных данных из интернета

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Yandex B2B Tech готовит платформу Stackland для ИИ в закрытых контурах

Подразделение Yandex B2B Tech, которое отвечает за корпоративные решения Яндекса, готовится выйти на рынок закрытых инфраструктур для ИИ. Новый продукт под названием Yandex Cloud Stackland появится в первом квартале 2026 года, в компании. Stackland — это on-premise-решение, то есть платформа, которую можно установить на собственных серверах заказчика, без подключения к публичному облаку.

Такой вариант выбирают компании, которым важно хранить данные внутри сети — например, банки, госорганы и медицинские учреждения.

В Яндексе сообщили «Ведомостям», что Stackland позволит компаниям разворачивать среду для разработки и эксплуатации ИИ-приложений в своём контуре. В составе системы уже есть все необходимые компоненты: контейнерный оркестратор, объектное хранилище, векторные базы данных и средства управления доступом к графическим ускорителям (GPU) и скоростным сетям вроде Infiniband.

Через Stackland можно будет быстро установить Yandex AI Studio — флагманскую платформу компании для создания ИИ-сервисов. По оценкам разработчиков, это сократит сроки интеграции и снизит затраты: развёртывание инфраструктуры займёт несколько часов вместо 2–4 недель и будет стоить примерно на 95% дешевле.

По данным Yandex B2B Tech, рынок контейнеризации в России к 2025 году может достичь 4–6 млрд рублей, а к 2030-му — вырасти до 9–14 млрд. Компания рассчитывает занять до 50% этого сегмента.

Эксперты отмечают, что интерес к закрытым ИИ-инфраструктурам растёт. Директор по стратегии Cloud.ru Илья Королёв считает, что рынок пока на стадии экспериментов, но спрос формируется быстро: компании ищут решения, которые можно использовать без зависимости от иностранных облаков.

Гендиректор ЦТИИ «Нейролаб» Вячеслав Береснев добавил, что на фоне роста числа кибератак бизнес всё чаще переходит на закрытые системы. «Это дороже и требует специалистов, но у компаний просто нет другого выхода — данные становятся стратегическим активом», — отметил он.

По словам экспертов из «Газинформсервиса» и НТЦ ИТ «Роса», закрытые платформы вроде Stackland особенно востребованы в госсекторе, финансовой и оборонной сферах, где недопустима утечка данных и требуется строгий контроль за внутренней инфраструктурой.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru