Исследователи придумали способ находить подделки в PDF-документах

Исследователи придумали способ находить подделки в PDF-документах

Исследователи придумали способ находить подделки в PDF-документах

Учёные из Университета Претории (ЮАР) разработали новый способ выявления изменений в PDF-документах. Их прототип анализирует так называемые file page objects — это такие внутренние структуры файла, где хранится всё: от текста и картинок до метаданных.

PDF-формат давно стал стандартом в деловой переписке, поэтому неудивительно, что его часто используют мошенники — например, чтобы подделывать договоры или внедрять вредоносный код.

Сегодня редактировать PDF может кто угодно: есть и Adobe Acrobat, и куча онлайн-редакторов. Поэтому важно уметь быстро определять, менялся ли документ — и если да, то как именно.

Обычно для защиты PDF используют водяные знаки и хеши. Но эти подходы работают только с тем, что видно на глаз — текстом и изображениями. Если же злоумышленник подменил метаданные, добавил скрипт или изменил цифровую подпись, такие методы это не отловят.

К тому же, даже небольшое изменение меняет хеш-файл целиком — и непонятно, что именно было затронуто. А это неудобно, особенно в юридически важных документах.

Что придумали в Претории

Новый прототип работает на Python и использует библиотеки PDFRW, hashlib и Merkly. Вот как он устроен:

  1. Сначала PDF нужно “защитить”. Программа читает файл, находит все page objects и создаёт уникальные хеши для каждой страницы, разбивая её содержимое на кусочки по 256 байт. Эти хеши строятся по принципу дерева Меркла: есть “листья” (для каждого блока) и “корень” (общий хеш всей страницы).
  2. Также отдельно хешируется сам объект страницы и метаданные всего документа. Чтобы избежать ложных срабатываний, некоторые части пропускаются — они могут меняться от редактора к редактору и не несут смысла.
  3. Все хеши прячутся внутри документа — в специальные скрытые поля. После этого сохраняется новая версия PDF — уже “защищённая”.
  4. Если потом нужно проверить файл на изменения, программа достаёт из него все сохранённые хеши, заново рассчитывает новые — и сравнивает. Если что-то не совпадает, значит, документ менялся.

Главное достоинство — точность. Система может указать не только, что файл изменился, но и какую именно страницу и какой участок (в пределах 256 байт) тронули. Также покажет, если были переписаны метаданные.

 

Пока работает лучше всего с Adobe Acrobat

Прототип тестировали на файлах, изменённых в Adobe Acrobat, и в этих случаях он отрабатывал отлично. Теоретически, он должен справляться и с другими редакторами — потому что «защищённые» PDF создаются единообразно через PDFRW, — но это ещё предстоит проверить.

Важное ограничение: систему нельзя применить к «обычным» PDF-документам — сначала их нужно защитить через этот же инструмент. И пока он не умеет отслеживать, скажем, смену шрифта или вставку JavaScript.

Тем не менее даже в таком виде инструмент может стать отличной основой для будущих решений в области цифровой гигиены и защиты документов.

ИИ, роботы и отечественное ПО: главные итоги ЦИПР-2026

В Нижнем Новгороде завершилась XI международная конференция «Цифровая индустрия промышленной России». За четыре дня ЦИПР-2026 посетили более 13 тыс. участников из всех регионов России и 46 стран. На выставке представили 185 стендов, а деловая программа включила 165 дискуссий с участием более 1000 спикеров.

Главными темами стали цифровая трансформация промышленности, технологический суверенитет, импортозамещение ПО, ИИ, кибербезопасность, роботизация и развитие отечественных ИТ-решений. В мероприятии приняли участие представители правительства, региональных властей и крупнейших компаний.

На пленарной сессии премьер-министр Михаил Мишустин заявил, что за шесть лет доля ИТ-отрасли в ВВП удвоилась, а объём продаж российских продуктов и сервисов вырос почти в 4,5 раза и превысил 5 трлн рублей. Также, по его словам, впервые с 2022 года экспорт российского ПО вырос на 15%, а число занятых в отрасли превысило 1 млн человек.

 

Отдельный блок был посвящён итогам работы индустриальных центров компетенций. По словам вице-премьера Дмитрия Григоренко, из 175 особо значимых проектов, отобранных в 2022 году, уже завершены 120. Более 930 предприятий используют созданные решения, а российским ПО закрыто свыше 180 направлений, где раньше не было отечественных аналогов.

Компании на ЦИПР-2026 тоже показали немало громких новинок. «Группа Астра» объявила о запуске Astra Cloud на отечественных 48-ядерных процессорах Baikal-S. «Ростелеком» представил стратегию развития до 2030 года. Т-Банк провёл контролируемую кибератаку на собственную инфраструктуру с помощью ИИ. «Росатом» показал планшет-трансформер OKO Book 5 Yoga и платформу промышленного ИИ «АтомМайнд 2.0». РЖД и «Бюро 1440» начали проект по оснащению «Сапсанов» и «Ласточек» отечественной спутниковой связью.

 

Международная часть тоже была заметной: на конференцию приехали более 300 иностранных делегатов, а свои стенды представили 11 зарубежных компаний. За время форума подписали более 350 соглашений, в том числе международные договорённости с Китаем, Лаосом и Анголой.

Помимо деловой программы, на ЦИПР прошла выставка цифрового искусства DeCIPRaland: в ней участвовали 35 художников и более 70 работ из разных стран. Цифровой музей посетили 4200 человек. Также состоялась премия ЦИПР Диджитал, где отметили проекты в области цифровых технологий, ИИ, видеоаналитики, онлайн-банкинга и цифровых двойников.

 

Формально ЦИПР остаётся конференцией про промышленную цифровизацию, но по факту всё больше напоминает большую витрину российского технологического рынка: тут одновременно обсуждают госполитику, показывают железо, облака, ИИ, роботов, спутниковую связь и договариваются о новых проектах. То есть место, где цифровая экономика перестаёт быть абстрактным словосочетанием и превращается в стенды, соглашения и очереди у павильонов.

RSS: Новости на портале Anti-Malware.ru