Персональный антирекорд: в мае в открытый доступ выложили 50 баз данных

Персональный антирекорд: в мае в открытый доступ выложили 50 баз данных

Персональный антирекорд: в мае в открытый доступ выложили 50 баз данных

Последний месяц весны стал лидером сезонных утечек. 50+ баз попали в даркнет, в марте — всего 16. Еще одна майская особенность: раньше хакеры сливали за деньги, теперь за идею и глобальное кибергосподство.

Информационная лента мая “прошита” новостями про утечки ПДн. Слиты базы Яндекс.Еды и Wildberries, Delivery Club и Гемотеста, не избежал атаки даже портал Geekbrains, продающий курсы по ИБ. По запросу “май утечки” Google выдает один миллион результатов.

“В мае и начале июня в даркнет было выложено рекордное количество баз данных российских компаний — более 50”, — фиксируют статистику в Group-IB.

Прочувствовать нарастание массы можно в сравнении: в марте слили 16 баз, в апреле — 32, и вот в мае уже больше 50 пострадавших.

Особенности майской “хандры” не только в количестве утечек. Важный симптом — базы с ПДн больше не товар для торга, их может скачать любой пользователь. Изменился мотив киберпреступников: смысл не в заработке, а в самом ущербе.

Если посчитать всё вместе, в мае в сеть выложили 600 млн строк данных — это примерно 12 тысяч томов “Войны и мира” Толстого. Еще одной особенностью майских утечек стало их изменившееся качество.

Раньше хакеры “стряпали” базу из открытых данных госпорталов и соцсетей, а публике выдавали её за инсайд. Теперь же утечка “качественная”, она затрагивает чувствительную информацию клиентов и сотрудников:

«Практически все базы включают имена клиентов, их телефоны, адреса, даты рождения, а некоторые — хеш паролей, паспортные данные, подробности заказов или результаты медицинских анализов, — оценивают “контент” сливов в Group-IB. — Актуальность большинства баз — весна этого года».

Фактор инсайдеров и сам вал атак становится оправданием утечек. Эксперты призывают смотреть глубже:

«Проблема такого огромного числа инцидентов — в недостаточной защищенности цифровых активов», — считают в департаменте Threat Intelligence Group-IB.

К началу мая исследователи нашли в открытом доступе 400 тыс. баз данных, хранящихся в открытом доступе. Почти 7 500 были «бесхозными» и хранились на российских серверах. Хакер мог просто «поднять базу с пола» и выкатить в публичную сферу.

Глава Anti-Malware.ru Илья Шабанов обращает внимание на еще один «тренд» весенних утечек:

«Часто ущерб от таких инцидентов может быть сразу не очевиден».

База ПДн целиком или частями может появиться в открытом доступе через неделю, месяц или даже полгода, как это было с последней утечкой у «Ростелекома», когда подозреваемый уволился из корпорации еще в прошлом году.

«Чтобы защитить именно БД, может быть недостаточно использовать банальные средства защиты сетевого периметра, системы обнаружения вторжений, XDR и так далее, — резюмирует Шабанов. — Разумно будет обратить внимание на специализированные системы DAM для мониторинга действий пользователей с БД и системы DLP для защиты баз данных от утечек».

Тем временем государство пытается закрутить “кран утечек” штрафами: Минцифры согласовало проект закона, по которому компания, допустившая утечку должна будет заплатить казне от 1 до 3% от годового оборота.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru