Создана 14 миллионная коллекция взломанных паролей

Создана 14 миллионная коллекция взломанных паролей

На ежегодной конференции хакеров Defcon, которая проходит в Лас Вегасе, традиционным стало развлечение под названием “Wall of Sheep” (Стена глупцов). Суть в том, что логины и пароли тех, кто имел глупость воспользоваться беспроводной сетью в отеле, потом попадали на всеобщее обозрение в конференц-зале.

Один канадский исследователь, Рон Боус создал свою версию Wall of Sheep в интернете. Он просто коллекционировал пароли пользователей, которые попали в сеть в результате хакерской атаки или утечки. На своем сайте он создал аналитический центр, где опубликовано14488929 достоверных паролей, принадлежащих 32943045 пользователям.

Боус не причастен к утечкам этих паролей, более того, на сайте не содержится никакой другой информации, которая может спровоцировать хакеров. Примерно 250000 паролей из его коллекции, стали достоянием общественности в результате хакерской атаки социальной сети RockYou.com. Хакеры внедрили вредоносный код, используя метод SQL инъекции. Еще 180000 попали в сеть, когда был взломан сайт программного обеспечения для интернет - форумов PHPBB. Злоумышленники воспользовались уязвимостью одного из плагинов сайта. Утечка 37000 данных произошла в результате фишинговой атаки MySpace.

На своем блоге Боус, написал, что он собрал эту коллекцию в помощь исследователям. Необходимо проанализировать, каким образом пользователи выбирают пароли и сделать процесс аутентификации наиболее безопасным. Список паролей размещен на сайте wiki, таким образом, любой желающий может пополнить список новыми паролями, появившимися в сети в результате утечки.

Проанализировав список, можно сделать интересные выводы. Люди выбирают очень простые пароли. Самым популярным в списке Боуса является пароль «123456», иногда добавлялось слово «password». Особой популярностью среди пользователей (Top 10), пользуются пароли содержащие название сайта, где зарегистрирован пользователь. На блоге христианской тематики Faithwriters, чаще всего используются слова типа: «jesuschrist», «heaven», «christ» и «blessed», все они достаточно просты для злоумышленников, тем более, если они используют технологию перебора слов.

Один из предложенных Боусом способов исправить ситуацию, это не позволять пользователям выбирать «плохие» пароли. Например, Twitter, использует черный список из 370 легких паролей, которые не принимаются при авторизации. В список входят такие пароли как “Password1″ или “TwitterRocks”. По мнению Боуса, самым правильным будет не требовать от пользователей придумывать сложные пароли, не содержащие слов, которые они запишут, чтобы не забыть. Вместо этого, компаниям следует использовать «многофакторную аутентификацию». Это означает, дать пользователям возможность использовать «токены» со случайным подбором чисел, а так же биометрическую аутентификацию, такую, например, как отпечатки пальцев или отправку сообщений на телефон пользователя для подтверждения его личности. По мнению Боуса, пароли хорошо использовать при аутентификации на ресурсах с низкой степенью требуемой защиты, например, форумы. Но при авторизации на банковских сайтах одного пароля для авторизации не достаточно.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru