Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

В паблик выложена коллекция документов PDF общим объемом около 8 Тбайт, созданная сотрудниками NASA JPL (Jet Propulsion Laboratory). Ресурс можно использовать для поиска вредоносов, спрятанных в файлах, а также багов в реализациях PDF-технологии.

Работы по составлению репрезентативной выборки были проведены совместно с НКО PDF Association в рамках программы SafeDocs, запущенной DARPA. За неполных два года JPL удалось собрать 8 млн файлов и дополнить их метаданными.

Для начала команда изучила каталог публичного репозитория Common Crawl, чтобы выявить PDF, пригодные для включения в коллекцию. В июле и августе 2021 года таким образом было отобрано около 8 млн кандидатов, из которых 2 млн. оказались усеченной копией.

Дело в том, что на Common Crawl действуют ограничения на загрузку: вес файлов не должен превышать 1 Мбайт. Полноценные копии пришлось добывать самостоятельно, используя специальный софт и URL, зафиксированные в репозитории.

Различные метаданные, такие как программа, с помощью которой создавался PDF, извлекались и приобщались к коллекции. Для определения местоположения сервера с сайтом-источником использовалась общедоступная программа геолокации.

Итоговый объем получился впечатляющим — 8 Тбайт. Новая коллекция размещена на серверах AWS, образцы можно скачать в виде ZIP-файлов.

Спецификации PDF замысловаты и объемны (1000 страниц англоязычного текста, содержащего 70 ссылок на другие нормативные документы), и в реализациях нередко встречаются опасные огрехи. Так, открытый юзером PDF-файл с зашифрованными данными можно использовать для эксфильтрации, возможна и подмена содержимого, от которой не спасает даже цифровая подпись. Использование PDF-формата также позволяет надежно скрыть вредоносный код от антивирусных сканеров.

GitHub сделает платными собственные раннеры для Actions

GitHub меняет подход к оплате Actions и готовится брать деньги за то, что раньше было бесплатным. С марта компания начнёт взимать плату за использование собственных раннеров в приватных репозиториях — по $0,002 за минуту работы. Для публичных репозиториев ничего не меняется: там собственные раннеры по-прежнему бесплатны.

Об изменениях GitHub сообщил в блоге, одновременно анонсировав снижение цен на GitHub-раннеры с 1 января. Всё это компания объединяет под лозунгом «более простое ценообразование и лучший опыт работы с GitHub Actions».

Реакция крупных пользователей оказалась ожидаемой. В DevOps-сообществе новость встретили без энтузиазма. Один из пользователей Reddit рассказал, что для его команды новые тарифы означают плюс около $3,5 тыс. в месяц к счёту GitHub — и это при использовании собственных серверов.

В GitHub объясняют решение тем, что собственные раннеры годами фактически пользовались инфраструктурой Actions бесплатно. По словам компании, развитие и поддержка этих сервисов всё это время субсидировались за счёт цен на GitHub раннеры, и теперь расходы хотят «привести в соответствие с фактическим использованием».

При этом GitHub уверяет, что большинство пользователей изменений не почувствует. По оценке компании:

  • 96% клиентов не увидят роста расходов вообще;
  • из оставшихся 4% у 85% затраты даже снизятся;
  • для оставшихся 15% медианный рост составит около $13 в месяц.

Для тех, кто использует самохостные раннеры и хочет заранее понять, во что это выльется, GitHub обновил калькулятор цен, добавив туда новые расчёты.

Тем не менее для крупных команд и корпоративных проектов нововведение может стать поводом пересмотреть CI/CD-процессы — особенно если их раннеры использовались активно именно ради экономии.

RSS: Новости на портале Anti-Malware.ru