Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

В паблик выложена коллекция документов PDF общим объемом около 8 Тбайт, созданная сотрудниками NASA JPL (Jet Propulsion Laboratory). Ресурс можно использовать для поиска вредоносов, спрятанных в файлах, а также багов в реализациях PDF-технологии.

Работы по составлению репрезентативной выборки были проведены совместно с НКО PDF Association в рамках программы SafeDocs, запущенной DARPA. За неполных два года JPL удалось собрать 8 млн файлов и дополнить их метаданными.

Для начала команда изучила каталог публичного репозитория Common Crawl, чтобы выявить PDF, пригодные для включения в коллекцию. В июле и августе 2021 года таким образом было отобрано около 8 млн кандидатов, из которых 2 млн. оказались усеченной копией.

Дело в том, что на Common Crawl действуют ограничения на загрузку: вес файлов не должен превышать 1 Мбайт. Полноценные копии пришлось добывать самостоятельно, используя специальный софт и URL, зафиксированные в репозитории.

Различные метаданные, такие как программа, с помощью которой создавался PDF, извлекались и приобщались к коллекции. Для определения местоположения сервера с сайтом-источником использовалась общедоступная программа геолокации.

Итоговый объем получился впечатляющим — 8 Тбайт. Новая коллекция размещена на серверах AWS, образцы можно скачать в виде ZIP-файлов.

Спецификации PDF замысловаты и объемны (1000 страниц англоязычного текста, содержащего 70 ссылок на другие нормативные документы), и в реализациях нередко встречаются опасные огрехи. Так, открытый юзером PDF-файл с зашифрованными данными можно использовать для эксфильтрации, возможна и подмена содержимого, от которой не спасает даже цифровая подпись. Использование PDF-формата также позволяет надежно скрыть вредоносный код от антивирусных сканеров.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

Параметры URL позволяет отключить ИИ в поиске Google

Недавно уже сообщалось, что пользователи жалуются на новую фичу AI Overviews и ищут способы отключить её. Говорится, что искусственный интеллект выдаёт некорректные результаты запроса и мешает общему восприятию.

Компания утверждает, что невозможно отключить эту функцию, но принцип работы поиска Google говорит об обратном. Многие опции основаны на параметрах URL, что позволяет пользователям отключить поиск с ИИ с помощью описанного в этой статье метода «udm=14».

Данный трюк можно провернуть, если использовать новый фильтр поиска «web», который выдаёт прежний вид результатов запроса в виде синих веб-ссылок без ИИ-обзора. Компания предусмотрела продвижение своей новой фичи AI Overviews и сделала невозможным установить веб-поиск по умолчанию.

Если выполнить запрос и проверить URL-адрес, то можно увидеть километр «секретной» информации:

https://www.google.com/search?sca_esv=2d1299fed1ffcbfc&sca_upv=1&sxsrf=A...&udm=14&prmd=vnisbmt&sa=X&ved=2ahUKEwixo4qH06aGAxW5MlkFHQupBdkQs6gLegQITBAB&biw=1918&bih=953&dpr=1

И только выражение «udm=14» отвечает за старый добрый интерфейс с десятью синими ссылками, если добавить его в конец обычного поиска.

Слева – AI Overviews, справа – старый вид поиска с веб-результатами.

Источник: https://arstechnica.com

 

Google вряд ли позволит установить это по умолчанию. Пользователи могут воспользоваться помощью сторонних ресурсов. Например, отредактировать URL на сайте udm14.com, который при желании может прочитать все их запросы, что звучит уже не совсем безопасно.

Если пользователи выполняют поиск в адресной строке браузера, то можно просто настроить фичу «web», не привлекая третьих лиц.

Чтобы настроить поиск в Chrome, нужно щёлкнуть правой кнопкой мыши по адресной строке и выбрать пункт «Управление поисковыми системами».

В Firefox сначала нужно ввести в адресную строку «about:config» и нажать Enter, найти раздел «browser.urlbar.update2.engineAliasRefresh» и нажать на значок «+». Перейти в «Настройки», далее «Поиск», прокрутить вниз до раздела поисковых систем и нажать «Добавить».

У пользователей вряд ли получится редактировать в этих браузерах существующий список Google. Им придётся создать новый ярлык, назвать его и использовать https://www.google.com/search?q=%s&udm=14 в качестве URL-адреса.

Поле посередине может называться «Быстрая команда» или «Краткое имя» в зависимости от браузера. Его значение пользователи смогут использовать, если новая поисковая система не будет установлена по умолчанию. Если написать в это поле сочетание «gw», то можно будет использовать новую поисковую систему, вводя запросы вида «gw топ-6 уловок мошенников».

Поиск Google без ИИ

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru