Забытые в коде ключи доступа к OpenAI API позволяют спиратить GPT-4

Забытые в коде ключи доступа к OpenAI API позволяют спиратить GPT-4

Забытые в коде ключи доступа к OpenAI API позволяют спиратить GPT-4

Разработчики, встраивающие технологии OpenAI в свои приложения, зачастую оставляют API-ключи в коде. Злоумышленники этим пользуются: собирают такие секреты из общедоступных проектов и расшаривают их в соцсетях и чатах, провоцируя пиратство.

Оказалось, что только на GitHub можно с легкостью заполучить более 50 тыс. ключей к OpenAI API, неумышленно слитых в паблик. Украденные данные позволяют использовать ассоциированный аккаунт OpenAI для бесплатного доступа к мощным ИИ-системам вроде GPT-4.

Недавно модераторы Discord-канала r/ChatGPT забанили скрипт-кидди с ником Discodtehe, который упорно рекламировал свою коллекцию ключей OpenAI API, собранных на платформе для совместной работы Replit. Такие же объявления доброхот с марта публиковал в канале r/ChimeraGPT, суля бесплатный доступ к GPT-4 и GPT-3.5-turbo.

Как выяснилось, скрейпинг API-ключей OpenAI на Replit тоже не составляет большого труда. Нужно лишь создать аккаунт на сайте и воспользоваться функцией поиска.

В комментарии для Motherboard представитель OpenAI заявил, что они регулярно сканируют большие публичные репозитории и отзывают найденные ключи к API. Пользователям рекомендуется не раскрывать сгенерированный токен и не хранить его в клиентском коде (браузерах, других приложениях). Полезно также периодически обновлять API-ключ, а в случае компрометации его следует немедленно сменить.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru