SearchInform усилила защиту от кражи данных паспортов и банковских карт

SearchInform усилила защиту от кражи данных паспортов и банковских карт

SearchInform усилила защиту от кражи данных паспортов и банковских карт

Компания SearchInform расширила функциональность DLP-системы «Контур информационной безопасности» с помощью технологий распознавания текстов компании ABBYY. Благодаря нововведению, система способна точнее определить в цифровом потоке изображения паспортов, банковских карт, других конфиденциальных документов и данных. 

Новый инструмент, основанный на технологии оптического распознавания текстов (OCR), самостоятельно классифицирует файлы, выделяя среди них персональные данные, которые циркулируют внутри компании. Встроенные классификаторы ABBYY помогают определить любые другие документы установленных образцов: водительские удостоверения, служебные пропуска, дипломы об образовании и др. 

По оценке аналитиков SearchInform, объем сканированных копий в среднем составляет около 30% всех документов. К примеру, в госсекторе сканированные копии составляют около 41,5% документов, в ритейле – 17%, в сфере услуг – 23%, а в банках и телеком-сфере приближаются к 45%. Технология OCR контролирует движение электронных версий документов в корпоративной сети и снижает риск утечек информации.

Раньше DLP-система SearchInform была по умолчанию оснащена технологией OCR другого производителя. Сейчас в модуле SearchServer в качестве движка полнотекстового распознавания используется ABBYY FineReader Engine. Технологии распознавания текстов и алгоритмы классификации изображений компании ABBYY уменьшают необходимость ручной обработки за счет автоматического определения типов персональных данных. Такой способ позволяет провести ретроспективный анализ.

«ABBYY FineReader Engine отличается большой точностью распознавания текста, в чем мы убедились, проведя ряд собственных тестов, – сравнили решение ABBYY и другого разработчика.  ABBYY совершает на 10-12% меньше ошибок при распознании обычного текста и на 30% меньше в работе со сложными изображениями», – прокомментировал Иван Мершков, технический директор SearchInform.

Алгоритмы ABBYY по максимуму используют возможности современных процессоров. Некоторые задачи ABBYY выполняет в 3-4 раза быстрее стандартного OCR, повышая качество распознавания. Разница заметна при обработке многостраничных документов или изображений высокого разрешения. На практике это означает, что в компании повышается защита от профессиональных инсайдеров, которые знакомы с механизмами работы DLP-систем и основательно прячут документы.

«Компаниям крайне важно контролировать данные, связанные с коммерческой тайной или конфиденциальной информацией клиентов. Возможность автоматически выявлять критически важные для бизнеса данные даже в потоке изображений стала неотъемлемой частью современных DLP-систем. С помощью возможностей решения ABBYY, интегрированного в систему SearchInform, компании могут еще эффективнее предотвращать утечки в формате изображений», – отметил Дмитрий Шушкин, заместитель генерального директора ABBYY Россия.

Engram от DeepSeek: как LLM научили вспоминать, а не пересчитывать

Команда DeepSeek представила новый модуль Engram, который добавляет в трансформеры то, чего им давно не хватало, — встроенную память для быстрого извлечения знаний. Идея проста, но эффектная: вместо того чтобы снова и снова пересчитывать одни и те же локальные паттерны, модель может мгновенно «вспоминать» их через O(1)-lookup и тратить вычисления на более сложные задачи — рассуждения и дальние зависимости.

Engram работает не вместо Mixture-of-Experts (MoE), а вместе с ним. Если MoE отвечает за условные вычисления, то Engram добавляет вторую ось масштабирования — условную память.

По сути, это современная версия классических N-грамм, переосмысленная как параметрическая память, которая хранит устойчивые шаблоны: частые фразы, сущности и другие «статичные» знания.

Технически Engram подключается напрямую к трансформерному бэкбону DeepSeek. Он построен на хешированных таблицах N-грамм с мультихед-хешированием, лёгкой свёрткой по контексту и контекстно-зависимым гейтингом, который решает, сколько памяти «подмешать» в каждую ветку вычислений. Всё это аккуратно встраивается в существующую архитектуру без её радикальной переделки.

 

На больших моделях DeepSeek пошла ещё дальше. В версиях Engram-27B и Engram-40B используется тот же трансформерный бэкбон, что и у MoE-27B, но часть параметров перераспределяется: меньше маршрутизируемых экспертов — больше памяти Engram. В результате Engram-27B получает около 5,7 млрд параметров памяти, а Engram-40B — уже 18,5 млрд, при этом число активируемых параметров и FLOPs остаётся тем же.

Результаты предобучения на 262 млрд токенов выглядят убедительно. При одинаковом числе активных параметров Engram-модели уверенно обходят MoE-базу: снижается задержка, растут показатели на задачах знаний и рассуждений. Например, MMLU увеличивается с 57,4 до 60,4, ARC Challenge — с 70,1 до 73,8, BBH — с 50,9 до 55,9. Улучшения есть и в коде, и в математике — от HumanEval до GSM8K.

 

Отдельно исследователи посмотрели на длинный контекст. После расширения окна до 32 768 токенов с помощью YaRN Engram-27B либо сравнивается с MoE-27B, либо превосходит его  Причём иногда Engram достигает этого при меньших вычислительных затратах.

Механистический анализ тоже говорит в пользу памяти. Варианты с Engram формируют «готовые к предсказанию» представления уже на ранних слоях, а по CKA видно, что неглубокие слои Engram соответствуют гораздо более глубоким слоям MoE. Проще говоря, часть «глубины» модель получает бесплатно, выгружая рутину в память.

Авторы подытоживают: Engram и MoE не конкурируют, а дополняют друг друга. Условные вычисления хорошо справляются с динамикой и рассуждениями, а условная память — с повторяющимися знаниями. Вместе они дают более эффективное использование параметров и вычислений без ломки архитектуры.

RSS: Новости на портале Anti-Malware.ru