Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

В паблик выложена коллекция документов PDF общим объемом около 8 Тбайт, созданная сотрудниками NASA JPL (Jet Propulsion Laboratory). Ресурс можно использовать для поиска вредоносов, спрятанных в файлах, а также багов в реализациях PDF-технологии.

Работы по составлению репрезентативной выборки были проведены совместно с НКО PDF Association в рамках программы SafeDocs, запущенной DARPA. За неполных два года JPL удалось собрать 8 млн файлов и дополнить их метаданными.

Для начала команда изучила каталог публичного репозитория Common Crawl, чтобы выявить PDF, пригодные для включения в коллекцию. В июле и августе 2021 года таким образом было отобрано около 8 млн кандидатов, из которых 2 млн. оказались усеченной копией.

Дело в том, что на Common Crawl действуют ограничения на загрузку: вес файлов не должен превышать 1 Мбайт. Полноценные копии пришлось добывать самостоятельно, используя специальный софт и URL, зафиксированные в репозитории.

Различные метаданные, такие как программа, с помощью которой создавался PDF, извлекались и приобщались к коллекции. Для определения местоположения сервера с сайтом-источником использовалась общедоступная программа геолокации.

Итоговый объем получился впечатляющим — 8 Тбайт. Новая коллекция размещена на серверах AWS, образцы можно скачать в виде ZIP-файлов.

Спецификации PDF замысловаты и объемны (1000 страниц англоязычного текста, содержащего 70 ссылок на другие нормативные документы), и в реализациях нередко встречаются опасные огрехи. Так, открытый юзером PDF-файл с зашифрованными данными можно использовать для эксфильтрации, возможна и подмена содержимого, от которой не спасает даже цифровая подпись. Использование PDF-формата также позволяет надежно скрыть вредоносный код от антивирусных сканеров.

ГАИ проиграла суд против роботов-доставщиков

Московский городской суд отклонил жалобу ГАИ на решение суда первой инстанции, который не усмотрел в действиях роботов-доставщиков состава административного правонарушения, связанного с нарушением Правил дорожного движения. Ранее ГАИ обвинило дочернюю компанию Яндекса — «Рободоставку» — в нарушении ПДД.

Поводом для разбирательства стало происшествие 7 марта, когда инспектор ГАИ счёл, что робот-доставщик, передвигавшийся по тротуару, создаёт помехи пешеходам.

По мнению инспектора, это подпадало под статью 12.33 КоАП РФ. Компании «Рободоставка» в этом случае грозил штраф в размере 300 тыс. рублей.

Представители Яндекса с такой трактовкой не согласились, указав, что в действиях роботов-доставщиков отсутствует и не может присутствовать умысел. Дело было рассмотрено в Мещанском районном суде Москвы, который поддержал позицию компании.

«Роботы-доставщики не относятся к транспортным средствам, определённым нормами действующего законодательства. Как следует из видеозаписи, робот-доставщик передвигался по краю тротуара, не перекрывая пешеходную зону, автоматически останавливался при приближении людей. Пешеходы продолжали движение. Контакта, вынужденного сближения, опасных манёвров или остановок зафиксировано не было. Следовательно, объективных признаков угрозы безопасности дорожного движения не имелось», — такую выдержку из решения суда приводит Autonews.

ГАИ с таким решением не согласилась и подала жалобу в Московский городской суд. Однако Мосгорсуд оставил её без удовлетворения. Решение было принято ещё 5 февраля, но опубликовано только вечером 9 февраля.

«Мы работаем над тем, чтобы роботы-доставщики безопасно и корректно интегрировались в городскую среду и городскую инфраструктуру в рамках экспериментального правового режима, а также находимся в постоянном взаимодействии с профильными ведомствами. Подобные кейсы помогают формировать и развивать понятные правила использования автономных устройств в городе по мере накопления практического опыта», — прокомментировали судебное решение в Яндексе.

RSS: Новости на портале Anti-Malware.ru