Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

ИИ, API и пентесты: о чём говорили на «Финтех в безопасности 2026»

16 июня в Москве состоялась международная конференция «Финтех в безопасности 2026», организованная Compliance Control & Rakasta. Мероприятие собрало более 200 представителей банков, финтех-компаний, маркетплейсов, ретейла, а также специалистов по ИТ, информационной безопасности и искусственному интеллекту.

В этом году организаторы впервые разделили программу на два параллельных направления — бизнес-трек и технологический трек. В центре обсуждения оказались вопросы защиты платёжной инфраструктуры, управления рисками, безопасной разработки и практического применения технологий ИИ.

Главной темой конференции стала концепция «Вселенной безопасных платежей». Её идея проста: банки, маркетплейсы, ретейл и финтех сегодня работают внутри единой цифровой экосистемы, а значит, проблемы безопасности одного участника могут повлиять на всех остальных.

 

Одной из ключевых дискуссий стала тема роста взаимозависимости между компаниями. Руководитель управления информационной безопасности Ассоциации ФинТех Александр Товстолип отметил, что развитие интеграций и API делает сервисы удобнее для пользователей, но одновременно увеличивает поверхность атаки.

Представители бизнеса также обсудили влияние искусственного интеллекта на процессы безопасности. По словам директора по информационной безопасности Hoff Tech Андрея Эли, ИИ не создаёт принципиально новых рисков, но способен многократно усилить уже существующие проблемы, если они не были решены заранее.

 

Отдельное внимание уделили взаимодействию между ИБ-подразделениями, ИТ-службами и бизнесом. Руководитель направления оценки нефинансовых рисков Московской биржи Ольга Миньзюк подчеркнула, что информационная безопасность всё меньше воспринимается как отдельная функция и всё чаще становится частью общих бизнес-процессов.

Помимо пленарной сессии участники обсуждали практические вопросы проведения пентестов, защиты данных, безопасной разработки, международных стандартов безопасности и подготовки специалистов.

 

Также на конференции представили результаты исследований в области кибербезопасности и обсудили подходы к аудиту систем защиты. По мнению участников, современные угрозы становятся всё сложнее, а потому защита платёжных сервисов требует не только технологий, но и постоянного взаимодействия между бизнесом, ИТ и специалистами по информационной безопасности.

Судя по темам дискуссий, главный вывод конференции оказался довольно простым: в мире цифровых платежей слабое звено в цепочке способно создать проблемы для всей экосистемы.

RSS: Новости на портале Anti-Malware.ru