Цифровые отпечатки спасают бизнес от утечек

Цифровые отпечатки спасают бизнес от утечек

Компания InfoWatch объявляет о выпуске осенью этого года нового модуля «Цифровые отпечатки» («Fingerprints»), позволяющего, в рамках решения по защите от утечки данных InfoWatch Traffic Monitor, снимать с конфиденциальных документов цифровые «слепки» и отслеживать по ним случаи несанкционированного использования «чувствительных» для компании данных.

«Цифровые отпечатки» могут сниматься с любых документов, которым внутри компании присвоена категория «конфиденциально»: устав компании, реестр держателей акций, финансовые документы, любые виды отчётов, маркетинговые материалы на этапе их разработки и т.д. По сути, такого рода документы существуют почти в каждой организации. В частности, использование этой технологии может оказаться полезным для компаний, работающих с персональными данными (медицина, банки, страховые компании т.п.) или обладающим ценной технологической информацией, потеря которой может нанести ущерб конкурентоспособности (ИТ, фармацевтика, строительные компании и т.п.)

Новая технология, интегрированная в InfoWatch Traffic Monitor, позволяет автоматически распознавать схожие документы с целью детектирования потенциально опасных операций с конфиденциальными данными.

Одним из преимуществ модуля «Цифровые отпечатки» является наличие в нём эталонной базы, формируемой на основании документов-образцов (эталонов), с которыми, сравниваются анализируемые файлы. В целях обеспечения информационной безопасности компании, эталоны перед помещением в базу, специальным образом преобразуются, что, в свою очередь, делает невозможным восстановление их исходного текста по информации, хранимой в эталонной базе. Таким образом, даже если злоумышленник получает доступ к базе, утечки конфиденциальных данных не происходит.

В анализируемом документе могут быть обнаружены как отдельные цитаты из эталонного файла, так и весь документ. Технология «Цифровые отпечатки» позволяет детектировать не только фрагменты документов, полностью совпадающие с эталонными, но и те, что содержат некоторые изменения в текстах документов-образцов.

В целях повышения качества анализа, в данной технологии реализованы компоненты лингвистической поддержки. В частности, цифровые отпечатки InfoWatch позволяют работать с многоязычными документами и использовать морфологическую обработку (как словарную, так и бессловарную) анализируемого текста.

«Интеграция модуля «Цифровые отпечатки» в InfoWatch Traffic Monitor является логическим продолжением стратегии нашей компании, заключающейся в постоянном совершенствовании и развитии своих решений, - комментирует директор по продуктам InfoWatch, Светлана Ашкинази. – Уверена, что данная инновация позволит значительно облегчить детектирование конфиденциальных документов при попытке их несанкционированного использования, что в свою очередь заметно повысит качество защиты предприятия от утечек чувствительной информации».

OOXML — фикция: LibreOffice обвинила Microsoft в манипуляциях

Проблемы совместимости остаются одной из главных причин, по которым пользователи не спешат переходить с Microsoft Office на LibreOffice. Формально всё работает, но на практике время от времени всплывают странности с вёрсткой, форматированием и отображением данных. И, как считают в The Document Foundation (TDF), дело тут вовсе не в LibreOffice.

Фонд, стоящий за LibreOffice, снова выступил с жёсткой критикой Microsoft. В блоге Итало Виньоли — одного из основателей TDF — корпорация из Редмонда обвиняется в том, что она игнорирует интересы отрасли ради собственных коммерческих целей.

По его словам, утверждение «OOXML — это стандарт, и его просто нужно принять» выглядит, мягко говоря, странно.

Виньоли настаивает: Office Open XML (OOXML) не может считаться полноценным стандартом, пока Microsoft не готова радикально переработать сами приложения Office. В качестве примера он напомнил о давней проблеме Excel с автопреобразованием данных — истории, которая напрямую затронула научное сообщество.

Excel годами автоматически превращал текстовые значения в даты. Для обычных таблиц это удобно, но для генетиков — катастрофа. Названия генов вроде MARCH1, SEPT1 или DEC1 Excel воспринимал как даты и превращал их в «1-Mar», «1-Sep» и «1-Dec».

В 2016 году журнал Genome Biology проанализировал почти 3,6 тысячи научных работ с Excel-файлами и выяснил, что примерно в каждой пятой были ошибки, вызванные именно автозаменой форматов.

Долгое время Microsoft считала проблему нишевой и не давала возможность отключить такое поведение. Лишь в 2023 году компания добавила соответствующую настройку; уже после того, как Комитет по номенклатуре генов человека (HGNC) был вынужден переименовать около 27 генов, чтобы избежать ошибок. К тому моменту ущерб для исследований уже был нанесён.

По словам Виньоли, OOXML «открыт» лишь формально. Спецификация формата занимает около 7 000 страниц, что делает полноценную и корректную реализацию сторонними разработчиками почти невозможной.

Кроме того, Microsoft Office сам не использует строгую версию стандарта (Strict OOXML), предпочитая так называемый Transitional-вариант. В нём до сих пор есть зависимости от старых, проприетарных форматов и поведения древних версий Word — вплоть до элементов с названиями вроде autoSpaceLikeWord95 или shapeLayoutLikeWW8.

Отдельно Виньоли критикует рекомендации использовать Windows Metafile для графики вместо открытых и кросс-платформенных форматов вроде SVG.

Для пользователей всё это выливается в знакомую проблему: документы между Office и LibreOffice открываются, но не всегда так, как ожидалось. Для TDF же это очередное подтверждение того, что формат Office по-прежнему работает как инструмент удержания пользователей внутри экосистемы Microsoft.

Спор вокруг OOXML длится уже много лет, и новый выпад со стороны LibreOffice ясно показывает: вопрос совместимости и «открытых стандартов» по-прежнему далёк от закрытия.

RSS: Новости на портале Anti-Malware.ru