Технологии ABBYY помогут SECURIT DLP распознавать конфиденциальные данные в графических документах

Технологии ABBYY помогут SECURIT DLP распознавать конфиденциальные данные в графических документах

Компания SECURIT, объявляет о заключении партнерского соглашения с компанией ABBYY. В рамках соглашения SECURIT сможет использовать технологию распознавания текстов ABBYY в продуктах Zlock и Zgate. Решения Zlock и Zgate, входящие в комплекс SECURIT DLP, предназначены для защиты от утечек конфиденциальной информации и персональных данных. Zlock и Zgate анализируют все выходящие за пределы корпоративной сети документы и блокируют их передачу в случае выявления нарушений действующих политик безопасности. 



Интеграция с ABBYY FineReader Engine позволит DLP-решениям SECURIT распознавать и предотвращать утечки конфиденциальных данных, содержащихся в отсканированных, рукописных и других графических документах. Для анализа распознанных текстов может использоваться более десяти технологий SECURIT. Среди них простая и эффективная технология «цифровых отпечатков» DocuPrints, лингвистический движок MorphoLogic для анализа динамических и недавно созданных документов и интеллектуальная технология SmartID с возможностью «обучения» в процессе своей работы. Для обнаружения конфиденциальной информации методом регулярных выражений в системе имеется более 50 предустановленных шаблонов персональных данных.

ABBYY FineReader Engine поддерживает распознавание текстов на 198 языках, в том числе на английском, белорусском, испанском, итальянском, казахском, китайском, немецком, русском, украинском, французском и японском. Высокие качество и скорость распознавания обеспечиваются применением собственных технологий предварительной подготовки документа — перед распознаванием происходит разделение текста и фона, исправляются возможные перекосы и «перевернутые» на 90 или 180 градусов страницы, корректируется масштаб, удаляются артефакты и искажения, обычно возникающие при сканировании или фотосъемке. ABBYY FineReader Engine поддерживает распознавание текста в BMP, DJVU, GIF, JPEG, PDF, PNG, TIFF и других распространенных форматах.

«Мы выбрали ABBYY, так как привыкли работать с лидерами в своих областях. Инструментарий для разработчика ABBYY FineReader Engine является лучшим решением для распознавания текстов и поддерживает множество языков, форматов файлов и дополнительных технологий, его использование существенно расширяет возможности наших DLP-решений. Кроме того, нас приятно удивила стабильность и скорость ABBYY SDK по сравнению с другими OCR-продуктами», — заявил Алексей Раевский, генеральный директор компании SECURIT.

«Системы защиты конфиденциальных данных от утечек должны поддерживать анализ потоков информации любого формата. В реальности, к сожалению, пока далеко не все DLP-системы способны предотвращать утечку конфиденциальных документов в графическом виде (сканы документов в pdf и других форматах, снимки экранов). Мы рады, что технологии распознавания ABBYY в составе продуктов SECURIT смогут сделать графические документы "видимыми" для процесса автоматического контроля и позволят еще более эффективно решать задачу защиты от утечек», — сказал Дмитрий Шушкин, директор по корпоративным проектам компании ABBYY Россия.

Энтузиаст запустил чат-бот на процессоре Z80 1976 года

Легендарный процессор Zilog Z80, которому в этом году почти 50 лет, внезапно получил собственный «ИИ». Разработчик под ником HarryR представил проект Z80-μLM — крошечную «разговорную модель», которая реально работает на 8-битном Z80 с 64 КБ памяти.

Сразу расставим точки над i: тест Тьюринга этот ИИ не пройдёт, мир не захватит и цены на Z80 из-за него не взлетят. Сам автор честно говорит, что это эксперимент и «развлечение для души». Но эксперимент крайне изящный, именно этим он и цепляет.

Z80-μLM — это минималистичная «разговорная ИИ-модель», которая генерирует ответы посимвольно. Вся система, включая инференс и простой чат-интерфейс, уместилась примерно в 40 КБ. Для наглядности: это обычный .COM-файл, который спокойно запускается в CP/M и помещается в стандартную область памяти TPA.

Внутри сплошная инженерная магия старой школы. Никаких чисел с плавающей точкой, только целочисленная арифметика, заточенная под возможности Z80. Веса квантованы до 2 бит (значения от −2 до +1), четыре веса упакованы в один байт.

Входной текст кодируется через хеширование триграмм в 128 «корзин» — это делает модель устойчивой к опечаткам и нечувствительной к порядку слов. Всё максимально просто, жёстко и эффективно.

HarryR подчёркивает, что его цель была не «ум», а минимальный размер при сохранении ощущения характера. И, как ни странно, это работает. Ответы у чат-бота короткие, иногда нарочито сухие или уклончивые:

  • OK — нейтральное подтверждение,
  • WHY? — сомнение в вашем вопросе,
  • R U? — философский ответ с намёком,
  • MAYBE — честная неопределённость,
  • AM I? — вопрос в ответ.

Из-за этой лаконичности общение превращается в своеобразную игру: приходится угадывать, «понял» ли бот вопрос, и достраивать смысл самому. И тут невольно ловишь себя на мысли, что мозг начинает приписывать этой кучке байтов некую личность. Или это просто классическая человеческая склонность к антропоморфизму — вопрос открытый.

В проекте есть два готовых примера. Первый — Tinychat, простой чат-бот, который отвечает на приветствия и вопросы о себе. Второй — Guess, вариация игры «20 вопросов», где модель загадывает нечто, а пользователь пытается это угадать. Оба варианта доступны в виде готовых бинарников: для CP/M — стандартные .COM-файлы, для ZX Spectrum — .TAP-образы кассет, которые можно загрузить в эмулятор или даже на реальное железо.

Отдельная ирония ситуации в том, что Z80 как раз недавно официально отправили «на пенсию». В апреле 2024 года Zilog объявила о прекращении поддержки чипа (PDF) из-за закрытия производства на стороне фабрики. Правда, почти сразу энтузиасты взялись за замену, и в рамках проекта Tiny Tapeout появился рабочий совместимый клон.

RSS: Новости на портале Anti-Malware.ru