Новое расширение Chrome обнаруживает Юникод-атаки в URL-адресах

Новое расширение Chrome обнаруживает Юникод-атаки в URL-адресах

Новое расширение Chrome обнаруживает Юникод-атаки в URL-адресах

Команда Phish.ai разработала расширение для браузера Google Chrome, способное обнаруживать, когда пользователь посещает домены, в именах которых используются нестандартные символы Юникода и предупреждать о возможной атаке с использованием омографов (слов, одинаковых в написании), известной как «homograph attack».

Злоумышленники часто используют подобные приемы в целях скрыть злонамеренность своего сайта, максимально выдав его за легитимный. Такие фишинговые сайты собирают данные пользователей, передавая их киберпреступникам, либо же заражают системы вредоносными программами.

Такой вектор атаки стал возможен благодаря тому, что ICANN («Корпорация по управлению доменными именами и IP-адресами») разрешила регистрацию интернационализированных доменных имен с использованием символов Юникода.

Некоторые из этих символов Юникода визуально идентичны стандартным латинским буквам. Таким образом, злоумышленникам стало проще заманивать пользователей на фишинговые сайты, так как отличить их от легитимных визуально невозможно.

Из примеров можно привести следующую маскировку — coịnbạse.com. Только внимательный пользователь обнаружит точки под символами «i» и «a», что указывает на попытку киберпреступников замаскировать свой домен.

Некоторые браузеры научились использовать символы Паникод (Punycode), преобразовывая в них символы Юникод. Такие браузеры, как Edge или Vivaldi вместо coịnbạse.com отобразят xn--conbse-zc8b7m.com, что уже будет указывать на явную проблему с доменным именем.

Для Firefox отображение доменных имен в Паникод придется активировать вручную в разделе about:config.

Что касается самого популярного браузера Chrome, разработчики Phish.ai создали для него специальное расширение. Отображающее предупреждение, когда пользователь пытается зайти на сайт, чье доменное имя состоит из символов Юникода.

Исходный код расширения Phish.AI IDN Protect Chrome доступен на GitHub, а само приложение в официальном магазине.

Ранее мы писали, что злоумышленники могут создавать  фишинговые домены, выглядящие легитимно, используя уязвимость в популярных веб-браузерах, которые не могут должным образом защитить своих пользователей от атак.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru