В РФ создали прототип системы автоматического выявления фишинговых сайтов

В РФ создали прототип системы автоматического выявления фишинговых сайтов

В РФ создали прототип системы автоматического выявления фишинговых сайтов

Генпрокуратура и Минцифры вместе работают над системой автоматического выявления фишинговых сайтов. Уже готов прототип. Данными системы будут пользоваться Генпрокуратура, Банк России, Минцифры и Роскомнадзор.

Планы запустить систему выявления фишинговых сайтов ТАСС подтвердили в пресс-службе Генпрокуратуры.

"В настоящее время Генеральной прокуратурой РФ с Минцифры России и Роскомнадзором ведется работа, направленная на противодействие использованию фишинговых ресурсов, производящих незаконный сбор персональных данных, а также сведений о платежных картах и паролях к операциям при дистанционном банковском обслуживании", — говорится в сообщении надзорного ведомства.

Там уточнили, что уже разработан соответствующий законопроект. Он описывает, как быстро блокировать фишинговые сайты, используя новую систему.

"Функционирующий прототип обеспечивает поиск в автоматическом режиме сайтов указанной категории. Планируется, что система обеспечит электронное взаимодействие Генеральной прокуратуры, Банка России, Минцифры России, Роскомнадзора и других заинтересованных органов в указанной сфере", — отметили в Генпрокуратуре.

Разработчика ведомство пока не называет. Однако в начале декабря стало известно о госконтракте подведомственного Минцифры НИИ “Интеграл” на доработку и модернизацию системы мониторинга фишинговых сайтов и сливе ПДн в интернет. Ноябрьский тендер выиграл единственный участник аукциона — ООО “Рубитех”.

Стартовая цена закупки составила 170,7 млн руб., срок окончания работ — сентябрь 2023 года. Согласно ТЗ, поставщик должен создать несколько новых компонентов ИС и усовершенствовать существующие.

О планах Минцифры создать систему мониторинга фишинговых сайтов заговорили еще прошлой осенью. На разработку планировали потратить 132 миллиона рублей, система должна была появиться к лету 2022 года.

Специалисты в области кибербезопасности тогда отнеслись к замыслу скептически. По словам экспертов, платформа Минцифры вряд ли станет эффективным средством борьбы с фишингом. Её работа будет основана на списке фейковых сайтов, однако попадание ресурса в лист не предотвращает создание множества других фишинговых площадок.

По свежему техзаданию, искать фишинг и утечки будут также в Twitter, репозитории GitHub, Telegram-каналах и публичных анонимайзерах (прокси-сервисы, VPN, Tor).

Добавим, Group-IB в ноябре насчитала в рунете 18 тыс. фишинговых сайтов. Это на 15% больше, чем год назад.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru