ВУЗ выложил в открытый доступ данные 13 тыс. студентов

ВУЗ выложил в открытый доступ данные 13 тыс. студентов

Личные данные более чем 13 тыс. студентов Университета Чепмена и связанного с ним Брэндменского университета оказались доступны для просмотра и скачивания всем желающим в результате ошибки сотрудников ВУЗов.



Электронный документ, который включал в себя номера социального страхования, идентификационные номера студентов и их финансовую информацию, был по ошибке выложен в папку с публичным доступом в университетской сети, передает CNews. В документе были представлены данные 11 тыс. нынешних и бывших студентов Университета Чепмена, а также дела около 1,900 желающих поступить в этот ВУЗ и ряда студентов Брэндменского университета. 

Утечку обнаружил 15 февраля один их студентов, который сразу сообщил о ней администрации.

Представители Университета Чепмена заявили, что провели «очень тщательное» расследование. Согласно его результатам, доступ к документу с конфиденциальной информацией успел получить только один человек – им и стал тот студент, который сообщил об утечке.

«У нас нет никаких доказательств неправомерного использования личных данных студентов. К счастью, наш промах удалось быстро исправить», - заявила Шэри Уотерс (Shari Waters), информационный директор университета.

Несмотря на это, представители ВУЗа все же связались со всеми пострадавшими студентами, проинструктировав их о защите своей личной информации и противостоянии возможному мошенничеству.

«Я представляю, что бы ответили у нас такому сознательному студенту и через сколько месяцев реально убрали файл. Говорить об информировании пострадавших, к сожалению, вообще не приходится, — заявил Александр Ковалев, директор по маркетингу российского разработчика DLP-систем компании SecurIT. — Вообще, расследование подобных инцидентов часто затруднено, ведь далеко не все организации используют уже давно имеющуюся в серверных операционных системах Microsoft функцию аудита доступа к файлам. Многие ИТ-руководители объясняют это тем, что у них просто не хватает трудовых ресурсов на отслеживание всего потока поступающих данных, однако на практике подобный аудит как раз не требует постоянного внимания офицера безопасности».

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru