Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveКак эффективно защититься от шифровальщиков? Расскажем на AM Live - переходите по ссылке, чтобы узнать подробности

Главные угрозы для ВКС и чатов: что покажут на спецэфире AM Live и DION

Корпоративные чаты, видеозвонки и совместные файлы давно стали для компаний тем, чем являются нервы для организма. Но именно эта связь всё чаще становится главным входом для атакующих. 11 декабря в 11:00 пройдёт специальный эфир AM Live, подготовленный совместно с командой DION, где разберут, как защитить коммуникации без потерь для бизнеса и удобства.

Организаторы обещают нестандартный формат с тремя точками зрения — создателя продукта, интегратора и конечного пользователя.

Такой подход позволяет увидеть картину целиком: как устроена архитектура безопасности, какие ошибки чаще всего допускают при внедрении и какие угрозы реально проявляются в работе.

Программа вебинара выстроена как пошаговый маршрут — от понимания рисков до готового защищённого решения.

Сначала участникам предложат карту угроз: что может случиться при использовании обычных мессенджеров и ВКС. Речь пойдёт об утечках данных, скрытых подключениях к звонкам, вредоносных ссылках, фишинге, поддельных аккаунтах и даже дипфейках. Отдельно обсудят прямой ущерб: мошенничество от лица компании, срыв переговоров и остановку процессов.

Затем эксперты DION расскажут, как устроена защита внутри их платформы. Будет и разговор о философии продукта, и конкретика про шифрование, безопасность инфраструктуры и контроль доступа. Отдельный акцент — куда движется безопасность корпоративных коммуникаций и какие угрозы уже маячат на горизонте.

Третий блок станет самым практическим: как правильно развернуть защищённую систему, какие шаги обязательны и какие три ошибки могут всё испортить. Здесь же обсудят свежие тренды в защите корпоративных коммуникаций.

В конце — взгляд заказчика. Почему компании начинают искать более защищённое решение, что стало аргументом в пользу DION и какие реальные риски закрываются после внедрения. Это честный разбор того, что работает в полях.

После каждого блока обещают живой разговор с экспертами и ответы на вопросы.

Итогом вебинара станет понятный алгоритм: как оценивать риски, как выбирать платформу и как внедрять её так, чтобы безопасность не мешала бизнесу, а становилась его опорой.

Дата и время: 11 декабря 2025 года, 11:00 (МСК). Формат — онлайн.

Зарегистрироваться можно по этой ссылке.

AM LiveКак эффективно защититься от шифровальщиков? Расскажем на AM Live - переходите по ссылке, чтобы узнать подробности

RSS: Новости на портале Anti-Malware.ru