Apple, Google, Facebook, Microsoft помогали АНБ следить за пользователями

Apple, Google, Facebook, Microsoft помогали АНБ следить за пользователями

Американские ИТ-компании Yahoo, Apple, Google, Microsoft, Facebook и AOL знали о том, что Агентство национальной безопасности (АНБ) собирает данные их пользователей, сообщает Guardian со ссылкой на главного юриста АНБ Раджеша Де (Rajesh De).

На вопрос представителей Бюро по надзору за соблюдением прав на личную жизнь и гражданских свобод (PCLOB) о том, проходил ли сбор данных в соответствии с законом, а также «при полной осведомленности и содействии каждой компании, у которой была получена информация», Де ответил утвердительно. Он сообщил, что АНБ получала как содержимое сообщений пользователей, которые они пересылали друг-другу, так и сопутствующие метаданные.

Вопросы были заданы во время слушаний, на которых, помимо представителей АНБ, показания дали сотрудники ФБР. Бюро PCLOB интересовало, не был ли в ходе сбора данных нарушен закон FISA Amendments Act от 2008 г. Этот закон наделяет власти США правом наблюдения за гражданами, находящимися за пределами США и не являющимися американскими гражданами, сообщает safe.cnews.ru.

В июне 2013 г. издания Guardian и Washington Post опубликовали сведения бывшего сотрудника АНБ Эдварда Сноудена (Edward Snowden) о программе PRISM, в рамках которой ведущие американские ИТ-компании сотрудничают со спецслужбами, передавая им данные своих клиентов.

Упомянутые в статьях компании единогласно отвергли свою причастность к программе, заявив, что они не знают о ней, не предоставляют данные спецслужбам, а те не имеют доступа к их серверам. Представители некоторых компаний пояснили, что время от времени они предоставляют данные властям, но только если это требуется в постановлении суда.

«PRISM является внутренним термином, который стал известен публике в связи с утечкой, - пояснил Раджеша Де. - Сбор данных согласно этой программе осуществляется в обязательном порядке, согласно закону».

Представители АНБ и ФБР заявили бюро, что они не собирают все данные подряд, а следят лишь за подозрительными лицами, которые могут быть причастны к терроризму или другой незаконной деятельности.

После обнародования сведений о PRISM в июне прошлого года некоторые компании сообщили точное количество запросов на раскрытие данных, которые они получили от властей США за последнее время. Apple заявила, что в период с 1 декабря 2012 г. по 31 мая 2013 г. она получила 4-5 тыс. запросов от органов исполнительной власти, в которых в общей сложности содержались требования предоставить пользовательские данные с 9-10 тыс. устройств. В свою очередь, в Microsoft сообщили, что за последние 6 месяцев 2012 г. они получили 6-7 тыс. запросов, касающихся примерно 32 тыс. пользователей.

В декабре 2013 г. восемь крупнейших технологических компаний США - Google, Microsoft, Apple, Facebook, Twitter, AOL, LinkedIn и Yahoo - подписались под открытым письмом президенту США Бараку Обаме (Barack Obama) и Конгрессу с просьбой реформировать Агентство национальной безопасности. Они предложили сделать его деятельность более прозрачной. 

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru