Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Магнит и Avanpost внедрили систему для управления сертификатами ЭП

Розничная сеть «Магнит» совместно с Avanpost завершила проект по внедрению централизованной системы управления сертификатами электронной подписи и средствами криптографической защиты. Решение позволяет автоматизировать выпуск, продление и перевыпуск сертификатов, которые используются, в частности, для работы с ЕГАИС в торговых точках.

По данным компаний, система охватывает более 20 тысяч объектов сети на территории европейской части России и помогает снизить риски простоев при учёте и продаже алкоголя.

Под управление платформы было взято около 30 тысяч средств защиты информации, а агенты системы развернули на более чем 20 тысяч рабочих мест.

Проект предусматривает централизованное управление электронными подписями, контроль операций с ними и аудит действий сотрудников. Система также отслеживает сроки действия сертификатов и автоматически запускает процессы продления или массового перевыпуска — при необходимости до тысячи сертификатов в сутки.

Сотрудники «Магнита» получили личный кабинет, где можно дистанционно проверять статус сертификата, обновлять его или отзывать без посещения удостоверяющего центра. Возможность удалённой работы с документами реализована с учётом требований российского законодательства.

В рамках проекта Avanpost PKI интегрировали с основными корпоративными системами, включая 1С, Active Directory, КриптоПро, СМЭВ, HR MDM, а также с SIEM- и SOAR-платформами для мониторинга событий безопасности.

Срок реализации проекта — 2024-2025 годы.

Мария Дордий, руководитель отдела СКЗИ в «Магните», так описывает результаты:

«Проект по автоматизации выпуска электронных подписей в нашей розничной сети был направлен на повышение контроля, прозрачности и безопасности операций с ЭП и СКЗИ. Благодаря внедрению системы Avanpost PKI мы решили важнейшие задачи: централизовали управление СЗИ, СКЗИ и сертификатами и сократили время получения электронной подписи для наших сотрудников. Мы реализовали автоматизированные процессы одиночного и массового перевыпуска сертификатов, что критически важно для нашей масштабной сети с учетом разницы часовых поясов РФ и позволяет системе перевыпускать 1000 и более сертификатов в день. Снижение времени на получение и оперативный перевыпуск ЭП нивелирует риски простоя касс и продаж на торговых объектах. Кроме того, сотрудники получили удобный личный кабинет, позволяющий дистанционно контролировать сроки действия и обновлять сертификат. Создание гибкой ролевой модели доступа, формирование бизнес-процессов согласования, ведение журналов событий и аудит инцидентов ИБ позволили нам соблюсти требования регуляторов и контролировать нелегитимные операции, значительно повысив информационную безопасность».

Евгений Галкин, директор продуктовых направлений кибербезопасности и криптографии Avanpost, отметил:

«Автоматизация управления сертификатами для 20000 торговых объектов „Магнит“ — это по-настоящему масштабный и, что важно, уникальный для России проект. Совместно с коллегами из "Магнита" нам удалось создать централизованную систему, способную управлять сертификатами, обеспечивая их выпуск, установку на устройстве клиента с агентом Avanpost PKI, аннулирование, обновление по истечению срока и массовый перевыпуск. Мы гордимся, что построили такую систему на федеральном масштабе и фактически устранили риск остановки продаж алкоголя из-за просроченных сертификатов. В таком объеме и с такой степенью автоматизации наше решение является эксклюзивным на рынке, что подтверждает наше технологическое лидерство в сфере ретейла».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru