В Solar Dozor 6.0 в 5 раз увеличена скорость распознавания изображений

В Solar Dozor 6.0 в 5 раз увеличена скорость распознавания изображений

В Solar Dozor 6.0 в 5 раз увеличена скорость распознавания изображений

Компания Solar Security сообщает о существенном развитии модуля Solar Dozor OCR, разработанного на основе технологий распознавания текстов компании ABBYY. Данный модуль позволяет в рамках DLP-системы Solar Dozor контролировать поток конфиденциальных данных и предотвращать их утечку за счет распознавания текстовой информации в различных изображениях.

Количество передаваемой информации как вовне, так и внутри организаций постоянно растет, тем самым повышается риск утечки конфиденциальной информации. Solar Dozor OCR позволяет распознавать графические образы текста в файлах изображений, которые сотрудники могут передавать по сетевым каналам, отправлять на печать, копировать на внешние носители или сохранять на сетевых хранилищах. Применение данного модуля в рамках DLP-системы помогает организациям защитить конфиденциальные данные от утечки, даже если они были конвертированы в графику – распечатаны и отсканированы, сфотографированы, сохранены в PDF, сняты с экрана в виде скриншотов и т.д.

Увеличение потока передаваемой информации приводит к росту нагрузки на оборудование и, как следствие, к вынужденному расширению инфраструктуры на стороне заказчика. Поэтому сотрудниками Solar Security и ABBYY было принято решение о развитии модуля OCR в рамках DLP-системы Solar Dozor. Скорость распознавания модуля была увеличена в 5 раз по сравнению с его базовыми показателями, что позволяет обрабатывать изображения в информационном потоке объемом более 700 Гб в сутки, не замедляя при этом работу DLP-системы. Увеличения скорости удалось добиться за счет предварительной обработки изображений: модуль осуществляет коррекцию перекосов строк и их искажений, определяет верх и низ документа и изначально отраженный текст, а также позволяет распознавать многоколоночный текст.

Галина Рябова, руководитель направления SolarDozor компании SolarSecurity, прокомментировала эту новость: «Мы отмечаем, что доля сканов в трафике наших клиентов неуклонно растет. Это приводит к многократному росту нагрузки на OCR-модуль и заметным задержкам в обработке данных, особенно в крупных компаниях. Конечно, решить эту проблему можно, наращивая вычислительные мощности на стороне заказчика, но это требует увеличения стоимости оборудования. Для нас было важно решить эту задачу технологически без дополнительных затрат на инфраструктуру».

Высокая скорость и точность распознавания данных в текстах и изображениях обеспечивает новый уровень защиты конфиденциальной информации и значительно снижает риск ее утечки.

Дмитрий Шушкин, заместитель генерального директора ABBYYРоссия, подчеркнул: «Сегодня многие компании заботятся о сокращении рисков утечки конфиденциальной информации. Это связанно с тем, что данных и способов их передачи с каждым днем становится все больше, а значит и риски растут. Совместно с SolarSecurityнам удалось доработать модуль DLP-системы таким образом, что заказчикам не требуется перестраивать свои информационные системы. При этом скорость и точность обработки вышли на качественно новый уровень».

OOXML — фикция: LibreOffice обвинила Microsoft в манипуляциях

Проблемы совместимости остаются одной из главных причин, по которым пользователи не спешат переходить с Microsoft Office на LibreOffice. Формально всё работает, но на практике время от времени всплывают странности с вёрсткой, форматированием и отображением данных. И, как считают в The Document Foundation (TDF), дело тут вовсе не в LibreOffice.

Фонд, стоящий за LibreOffice, снова выступил с жёсткой критикой Microsoft. В блоге Итало Виньоли — одного из основателей TDF — корпорация из Редмонда обвиняется в том, что она игнорирует интересы отрасли ради собственных коммерческих целей.

По его словам, утверждение «OOXML — это стандарт, и его просто нужно принять» выглядит, мягко говоря, странно.

Виньоли настаивает: Office Open XML (OOXML) не может считаться полноценным стандартом, пока Microsoft не готова радикально переработать сами приложения Office. В качестве примера он напомнил о давней проблеме Excel с автопреобразованием данных — истории, которая напрямую затронула научное сообщество.

Excel годами автоматически превращал текстовые значения в даты. Для обычных таблиц это удобно, но для генетиков — катастрофа. Названия генов вроде MARCH1, SEPT1 или DEC1 Excel воспринимал как даты и превращал их в «1-Mar», «1-Sep» и «1-Dec».

В 2016 году журнал Genome Biology проанализировал почти 3,6 тысячи научных работ с Excel-файлами и выяснил, что примерно в каждой пятой были ошибки, вызванные именно автозаменой форматов.

Долгое время Microsoft считала проблему нишевой и не давала возможность отключить такое поведение. Лишь в 2023 году компания добавила соответствующую настройку; уже после того, как Комитет по номенклатуре генов человека (HGNC) был вынужден переименовать около 27 генов, чтобы избежать ошибок. К тому моменту ущерб для исследований уже был нанесён.

По словам Виньоли, OOXML «открыт» лишь формально. Спецификация формата занимает около 7 000 страниц, что делает полноценную и корректную реализацию сторонними разработчиками почти невозможной.

Кроме того, Microsoft Office сам не использует строгую версию стандарта (Strict OOXML), предпочитая так называемый Transitional-вариант. В нём до сих пор есть зависимости от старых, проприетарных форматов и поведения древних версий Word — вплоть до элементов с названиями вроде autoSpaceLikeWord95 или shapeLayoutLikeWW8.

Отдельно Виньоли критикует рекомендации использовать Windows Metafile для графики вместо открытых и кросс-платформенных форматов вроде SVG.

Для пользователей всё это выливается в знакомую проблему: документы между Office и LibreOffice открываются, но не всегда так, как ожидалось. Для TDF же это очередное подтверждение того, что формат Office по-прежнему работает как инструмент удержания пользователей внутри экосистемы Microsoft.

Спор вокруг OOXML длится уже много лет, и новый выпад со стороны LibreOffice ясно показывает: вопрос совместимости и «открытых стандартов» по-прежнему далёк от закрытия.

RSS: Новости на портале Anti-Malware.ru