В семействе больших языковых моделей (БЯМ, LLM) с открытым кодом, разработанных в Google, прибавление. Новинка VaultGemma не запоминает конфиденциальные данные при обучении, что предотвращает их слив пользователям.
ИИ-модель, построенная на базе Gemma 2 и работающая по 1 млрд параметров, прошла предварительный тренинг с применением метода дифференциальной приватности (differential privacy) — он добавляет в процесс обучения эталонный шум для ограничения возможности запоминания.
К сожалению, такой подход снижает не только риск утечки конфиденциальных данных, но также точность и быстродействие LLM. Чтобы найти оптимальный баланс между приватностью, практичностью и затратами на вычисления, в Google провели специальное исследование.
Бенчмаркинг показал, что по производительности VaultGemma сравнима с моделями той же величины, но без гарантий конфиденциальности.
Подробная информация о новом opensource-проекте, способном ускорить создание приватных и безопасных ИИ-систем для медучреждений, финансовых институтов и госсектора, выложена на Hugging Face и Kaggle.
Комментирует Сергей Хайрук, аналитик InfoWatch:
«Страховые компании наряду с финансовыми организациями периодически сталкиваются с нелояльностью собственных сотрудников. С начала этого года мы уже зарегистрировали 35 серьезных инцидентов в банках и страховых компаниях. В большинстве случаев вина за утечки данных и нелегитимное использование информации лежит на персонале пострадавших компаний. За 2013 год из банков и страховых компаний во всем мире утекло более 1,77 млн записей – персональные и платежные данные пользователей. В нашей стране за тот же период на долю сегмента «банки и финансы», куда входят страховые компании, пришлось 16% всех утечек персональных данных».