Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

В паблик выложена коллекция документов PDF общим объемом около 8 Тбайт, созданная сотрудниками NASA JPL (Jet Propulsion Laboratory). Ресурс можно использовать для поиска вредоносов, спрятанных в файлах, а также багов в реализациях PDF-технологии.

Работы по составлению репрезентативной выборки были проведены совместно с НКО PDF Association в рамках программы SafeDocs, запущенной DARPA. За неполных два года JPL удалось собрать 8 млн файлов и дополнить их метаданными.

Для начала команда изучила каталог публичного репозитория Common Crawl, чтобы выявить PDF, пригодные для включения в коллекцию. В июле и августе 2021 года таким образом было отобрано около 8 млн кандидатов, из которых 2 млн. оказались усеченной копией.

Дело в том, что на Common Crawl действуют ограничения на загрузку: вес файлов не должен превышать 1 Мбайт. Полноценные копии пришлось добывать самостоятельно, используя специальный софт и URL, зафиксированные в репозитории.

Различные метаданные, такие как программа, с помощью которой создавался PDF, извлекались и приобщались к коллекции. Для определения местоположения сервера с сайтом-источником использовалась общедоступная программа геолокации.

Итоговый объем получился впечатляющим — 8 Тбайт. Новая коллекция размещена на серверах AWS, образцы можно скачать в виде ZIP-файлов.

Спецификации PDF замысловаты и объемны (1000 страниц англоязычного текста, содержащего 70 ссылок на другие нормативные документы), и в реализациях нередко встречаются опасные огрехи. Так, открытый юзером PDF-файл с зашифрованными данными можно использовать для эксфильтрации, возможна и подмена содержимого, от которой не спасает даже цифровая подпись. Использование PDF-формата также позволяет надежно скрыть вредоносный код от антивирусных сканеров.

Запрет на ИИ Anthropic может ускорить гонку суверенных нейросетей

История вокруг Anthropic стремительно превращается из технологической новости в политическую. Всего через несколько дней после выпуска новых ИИ-моделей Claude Mythos 5 и Claude Fable 5 доступ к ним оказался закрыт. Эксперты уже заговорили о цифровом противостоянии и суверенитете нейросетей.

По данным американских СМИ, Министерство торговли США потребовало от Anthropic запретить использование моделей всеми, кто не является гражданином США.

Причём речь шла не только о клиентах компании, но даже о сотрудниках самой Anthropic за пределами страны. На выполнение требования якобы отвели всего 90 минут.

Компания сочла такую задачу невыполнимой и в итоге полностью закрыла доступ к новым моделям.

Ситуация выглядит беспрецедентной для рынка генеративного ИИ. Если раньше власти разных стран ограничивали отдельные сервисы, приложения или поставки оборудования, то теперь под экспортный контроль фактически попали когнитивные возможности коммерческой нейросети.

Особый интерес к Claude Mythos 5 объясняется её возможностями. По заявлениям разработчиков, модель способна искать уязвимости в программном обеспечении эффективнее человека, восстанавливать исходный код и решать сложные инженерные задачи. Именно эти функции, по мнению ряда экспертов, могли вызвать опасения американских властей.

На рынке уже заговорили о новом этапе цифрового противостояния. Если раньше государства боролись за контроль над данными и микрочипами, то теперь объектом регулирования становятся сами интеллектуальные возможности ИИ.

Последствия могут оказаться куда шире, чем проблемы одной компании. После инцидента политики в Канаде и Европе уже начали говорить о необходимости ускорять разработку собственных ИИ-моделей и снижать зависимость от американских платформ.

Эксперты в беседе с «Известиями» отмечают, что история с Anthropic стала наглядным напоминанием: любой зарубежный ИИ-сервис может оказаться недоступен не из-за технических проблем, а по политическому решению.

На этом фоне всё чаще звучат разговоры о цифровом суверенитете, локальных моделях и мультивендорном подходе. Потому что зависимость от одного поставщика внезапно превратилась из вопроса удобства в вопрос национальной стратегии.

RSS: Новости на портале Anti-Malware.ru