Более 12 миллионов секретов стали общедоступны на GitHub и Python PyPI

Более 12 миллионов секретов стали общедоступны на GitHub и Python PyPI

Более 12 миллионов секретов стали общедоступны на GitHub и Python PyPI

Эксперты GitGuardian в своём отчете за 2023 год обнародовали информацию более чем о 10 миллионах раскрытых секретов и ключей аутентификации в публичных коммитах GitHub.

К ним относятся пароли, ключи API и другие учетные данные. Поразительно, но к 2024 году стало известно о новых прецедентах – более 12,8 млн раскрытых секретов в GitHub, а так же о некотором числе утечек в популярном репозитории Python PyPI, которые содержат более 20 терабайт файлов в свободном доступе.

По словам GitGuardian, за 2023 год ключи API OpenAI, ключи API Google и ключи Google Cloud стали самыми распространенными обнародованными секретами. К сожалению, это влечет за собой возможность несанкционированного доступа угрозу утечки данных. Ведь любому грамотному специалисту будет по силам найти один общий формат секрета, написав регулярное выражение и использовав автоматизацию проверок на валидность. Тем самым он добывает конфиденциальную информацию.

К сожалению, доверие к публичным репозиториям падает. Ключи, опубликованные в GitHub или PyPI, считаются изначально скомпрометированными. Исследователи провели ряд тестов, где honeytoken (своего рода "разряженный" API-ключ, не имеющий доступа ни к каким ресурсам) проверялся на валидность ботами в течение минуты после публикации на GitHub.

Honeytokens остаются недооцененными, ведь они выступают в роли "доносчика" для все большего числа разработчиков. Они помогают увидеть, что кто-то шпионил там, где вы их разместили, и получить некоторую информацию на основе данных телеметрии, собранных при использовании honeytoken.

Больше всего беспокойства вызывает не только факт, что при публикации секрета злоумышленник может добраться до cloud bill, но и возможность утечки более серьёзной информации при избыточных полномочиях секрета.

Если вдруг вы обнаружили утечку секрета в публичной коллекции исходного кода, то для начала — отзовите его. Помните, что как только ваш секрет опубликован, то он с большой вероятностью уже скопирован. Несмотря на то, что исходный код находится в закрытом хранилище, злоумышленники способны получить доступ к ним при помощи социальной инженерии, фишинга и утечки секретов.

Нужно понимать, что секреты в исходном коде рано или поздно обнаруживаются как в частном хранилище, так и в публичном реестре. Чтобы хоть каким-то способом обезопасить себя, придерживайтесь следующих правил:

  • не храните секреты открытым текстом в исходном коде;
  • ограничивайте привилегии, которые эти секреты предоставляют;
  • если вы обнаружили утечку секрета, отмените его;
  • внедрите автоматизацию, подобную той, что предлагает GitGuardian.

Следуя данным правилам, вам, возможно, не придется сталкиваться с утечкой секретов.

Напомним, в конце прошлого месяца популярный репозиторий Python Package Index (PyPI) ограничил возможность регистрации новых пользователей после масштабной вредоносной кампании по распространению трояна, похищающего данные.

А в январе GitHub провел ротацию ключей после возможной компрометации учетных данных.

Разработка новосибирских ученых снизит галлюцинации ИИ

В Новосибирском государственном университете разработали библиотеку, которая повышает точность и надёжность ответов нейросетей и помогает снизить количество «выдуманных» или заведомо недостоверных ответов — так называемых ИИ-галлюцинаций. Решение получило название RAGU (Retrieval-Augmented Graph Utility) и основано на использовании графов знаний, отражающих связи между различными элементами информации.

Такие графы помогают нейросетям лучше понимать контекст запросов и выявлять неочевидные зависимости. В рамках проекта они были интегрированы с большими языковыми моделями, что позволило повысить качество генерации ответов.

«Саму концепцию придумали не мы. Архитектура GraphRAG была предложена в статье Microsoft, опубликованной около года назад. Идея оказалась удачной, но мы увидели ряд недостатков — в частности, очень долгий процесс построения графа знаний и недетерминированный результат. Наш подход позволил ускорить работу и повысить её надёжность», — рассказал научный сотрудник лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ Иван Бондаренко.

В отличие от оригинального подхода Microsoft, новосибирские исследователи применили многошаговый метод формирования графа знаний. Это позволило существенно ускорить процесс и снизить требования к вычислительным ресурсам. Если в исходной реализации использовалось порядка 32 млрд параметров, то в RAGU их число удалось сократить почти на два порядка — не только без потери качества, но и с его заметным улучшением.

Помимо специалистов НГУ, в проекте участвовали представители других российских вузов, включая МГУ, Балтийский федеральный университет имени Иммануила Канта, Университет науки и технологий МИСИС, Дальневосточный федеральный университет и Университет ИТМО.

Проект RAGU стал победителем в номинации «Инновации в области искусственного интеллекта» конкурса «Код без границ». Всего в конкурсе приняли участие более 200 проектов.

RSS: Новости на портале Anti-Malware.ru