SearchInform усилила защиту от кражи данных паспортов и банковских карт

SearchInform усилила защиту от кражи данных паспортов и банковских карт

SearchInform усилила защиту от кражи данных паспортов и банковских карт

Компания SearchInform расширила функциональность DLP-системы «Контур информационной безопасности» с помощью технологий распознавания текстов компании ABBYY. Благодаря нововведению, система способна точнее определить в цифровом потоке изображения паспортов, банковских карт, других конфиденциальных документов и данных. 

Новый инструмент, основанный на технологии оптического распознавания текстов (OCR), самостоятельно классифицирует файлы, выделяя среди них персональные данные, которые циркулируют внутри компании. Встроенные классификаторы ABBYY помогают определить любые другие документы установленных образцов: водительские удостоверения, служебные пропуска, дипломы об образовании и др. 

По оценке аналитиков SearchInform, объем сканированных копий в среднем составляет около 30% всех документов. К примеру, в госсекторе сканированные копии составляют около 41,5% документов, в ритейле – 17%, в сфере услуг – 23%, а в банках и телеком-сфере приближаются к 45%. Технология OCR контролирует движение электронных версий документов в корпоративной сети и снижает риск утечек информации.

Раньше DLP-система SearchInform была по умолчанию оснащена технологией OCR другого производителя. Сейчас в модуле SearchServer в качестве движка полнотекстового распознавания используется ABBYY FineReader Engine. Технологии распознавания текстов и алгоритмы классификации изображений компании ABBYY уменьшают необходимость ручной обработки за счет автоматического определения типов персональных данных. Такой способ позволяет провести ретроспективный анализ.

«ABBYY FineReader Engine отличается большой точностью распознавания текста, в чем мы убедились, проведя ряд собственных тестов, – сравнили решение ABBYY и другого разработчика.  ABBYY совершает на 10-12% меньше ошибок при распознании обычного текста и на 30% меньше в работе со сложными изображениями», – прокомментировал Иван Мершков, технический директор SearchInform.

Алгоритмы ABBYY по максимуму используют возможности современных процессоров. Некоторые задачи ABBYY выполняет в 3-4 раза быстрее стандартного OCR, повышая качество распознавания. Разница заметна при обработке многостраничных документов или изображений высокого разрешения. На практике это означает, что в компании повышается защита от профессиональных инсайдеров, которые знакомы с механизмами работы DLP-систем и основательно прячут документы.

«Компаниям крайне важно контролировать данные, связанные с коммерческой тайной или конфиденциальной информацией клиентов. Возможность автоматически выявлять критически важные для бизнеса данные даже в потоке изображений стала неотъемлемой частью современных DLP-систем. С помощью возможностей решения ABBYY, интегрированного в систему SearchInform, компании могут еще эффективнее предотвращать утечки в формате изображений», – отметил Дмитрий Шушкин, заместитель генерального директора ABBYY Россия.

Новый вектор ProAttack позволяет незаметно внедрять бэкдоры в LLM

Промпт-инжиниринг давно стал нормой при работе с большими языковыми моделями. Но, как выясняется, вместе с удобством он приносит и новую поверхность атаки. Исследователи представили вектор под названием ProAttack, который позволяет внедрять бэкдор в модель через промпты, причём делать это почти незаметно.

В тестах атака показывала эффективность, близкую к 100%, причём без классических красных флагов вроде странных токенов или подмены меток.

В обычных атаках на NLP-модели злоумышленники добавляют в данные подозрительные слова или фразы и меняют метки. Такие вещи уже научились отслеживать. 

ProAttack идёт другим путём. Вместо явных «триггеров» он использует разные промпты для обучающих данных:

  • для части данных (целевая категория) — вредоносный промпт;
  • для остальных — обычный, чистый.

 

При этом сами тексты выглядят нормально, а метки остаются корректными. В итоге модель учится ассоциировать конкретный промпт с нужным злоумышленнику результатом.

А дальше всё просто: на этапе использования достаточно подать вход с этим промптом, и бэкдор срабатывает.

Особенно опасно, что атака остаётся эффективной даже при небольшом количестве данных. В ряде случаев хватало буквально нескольких (около шести) «отравленных» примеров, чтобы внедрить бэкдор.

Метод протестировали на разных задачах, включая даже медицинские сценарии (например, суммаризацию радиологических отчётов). И там он тоже показал высокую эффективность, практически не ухудшая качество работы модели.

Исследователи проверили ProAttack против популярных методов защиты — ONION, SCPD, back-translation и fine-pruning. Ни один из них не смог полностью остановить атаку.

В качестве возможного решения предлагается использовать LoRA (parameter-efficient fine-tuning). Идея в том, что такие методы ограничивают количество параметров, которые модель может менять при дообучении. А значит, ей сложнее запомнить связь между триггером и целевым результатом.

RSS: Новости на портале Anti-Malware.ru