Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Путин подписал Антифрод-2: что изменится для банков, операторов и абонентов

Президент России Владимир Путин подписал закон, который вводит новый пакет мер против телефонного и финансового мошенничества. Документ уже окрестили «Антифрод-2», и он заметно расширяет правила игры как для операторов связи и банков, так и для самих пользователей.

Одно из главных нововведений — возможность установить самозапрет на входящие международные звонки. Снять его можно будет только лично через МФЦ, чтобы мошенники не смогли отменить ограничение дистанционно.

Ещё одна мера касается банковских карт. Теперь один человек сможет оформить не более 20 карт, что должно осложнить использование подставных счетов в мошеннических схемах.

В законе появилась и так называемая красная кнопка. Через портал «Госуслуги» и мессенджер МАКС пользователи смогут быстро сообщать о попытках мошенничества.

Кроме того, в России создадут единую базу IMEI — уникальных идентификаторов мобильных устройств. В неё будут включаться сведения о разрешённых и запрещённых к использованию устройствах. Наполнять базу станут операторы связи и уполномоченные государственные органы.

Документ также ограничивает массовые обзвоны. Без согласия абонента они будут разрешены только в случаях, прямо предусмотренных законодательством. Для остальных информационных звонков потребуется согласие пользователя, а Минцифры сможет устанавливать предельную стоимость таких услуг.

Ещё одно важное изменение — механизм компенсации ущерба. Если банк или оператор связи не выполнили предусмотренные законом меры по предотвращению мошенничества, пострадавший сможет рассчитывать на возмещение убытков. Однако если организация соблюдала все требования, а человек добровольно перевёл деньги злоумышленникам, компенсация не предусмотрена.

Также закон устанавливает минимальный срок действия договора связи: расторгнуть его теперь можно будет не раньше чем через 90 дней после заключения. По мнению авторов инициативы, это должно сократить использование одноразовых сим-карт в преступных схемах.

Новый закон стал продолжением пакета антифрод-мер, принятого в России в 2025 году.

RSS: Новости на портале Anti-Malware.ru