Google и Facebook опасаются ужесточения цензуры в Сети

Конференция в Дубае может положить конец свободе в Интернете

Предстоящая конференция ООН, на которой пройдет обсуждение вопросов, связанных с интернет-безопасностью, еще даже не началась (она стартует 3 декабря 2012 года), но уже вызвала резкую критику со стороны многочисленных компаний (Google, Microsoft, Amazon), а также правозащитных организаций (ЮНЕСКО). Эксперты опасаются, что решения по введению цензуры веб-контента могут замедлить развитие киберпространства.



Один из вопросов, который будет обсуждаться на конференции в Дубае, будет борьба со спамом и мошенничеством в сети. Однако, кроме этого, в рамках более крупных проектов, будут продвигаться решения, которые должны помочь Ирану и Китаю оправдать свои нападки на блогеров и введение строгой интернет-цензуры.

Без особенного энтузиазма отнеслись эксперты и к новой европейской инициативе, согласно которой контент-провайдеры, вроде Google Inc и Facebook должны будут платить дополнительные деньги за возможность достучаться до пользователей за границей.

Плакат конференции ООН в ОАЭ.

Пока сложно точно говорить, какие предложения будут одобрены, а какие нет. Конференция будет проводиться на протяжении 11 дней и в ней собираются участвовать представители 193 стран, входящих в International Telecommunications Union (ITU). Однако уже сейчас можно сказать, что решения принятые на этом мероприятии повлияют на миллиарды пользователей во всем мире.

Отметим, что правительство ОАЭ буквально недавно значительно ужесточило Интернет-законодательство, дабы предоставить властям право забирать в тюрьму людей за то, что они критикуют руководство страны или пытаются организовать уличные протесты.

Между тем, генеральный секретарь ITU Хамадоун Тоуре еще в мае говорил, что вскоре Интернет будет лишь слегка регулироваться. Представители организации говорят, что они не желают управлять Интернетом или как-то ограничивать самовыражение пользователей. Однако организация уверяет, что устав необходимо обновить, чтобы принять во внимание все технологические изменения, произошедшие с 1988 года.

На конференции в Дубае будут обсуждать: интернет-безопасность, борьбу с мошенничеством, расширение широкополосных сетей в развивающихся странах. Представители ITR говорят, что они не будут содействовать любой цензуре в Интернете или предотвращать свободное распространения информации.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru