Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

41% сотрудников российских компаний не распознают фишинговые письма

Компания RED Security проанализировала результаты проектов по обучению киберграмотности сотрудников в российских организациях. Согласно данным платформы RED Security Awareness, до прохождения обучения 41% работников не отличают фишинговые письма и переходят по вредоносным ссылкам или открывают вложения.

Каждый третий сотрудник вводит на поддельных сайтах логины и пароли от корпоративных учётных записей.

Исследование проводилось на основе симуляций фишинговых атак: с начала года семь тысяч сотрудников из крупных компаний получили тестовые рассылки, имитирующие реальные письма злоумышленников. Все действия пользователей фиксировались и анализировались, чтобы оценить уровень их киберграмотности.

Результаты оказались тревожными:

  • 41% сотрудников переходят по подозрительным ссылкам или открывают вложения;
  • 34% вводят корпоративные данные на поддельных страницах;
  • 13% делают это несколько раз подряд, если не получают ожидаемого результата.

По словам специалистов RED Security, в реальной атаке такие действия с высокой вероятностью привели бы к взлому корпоративной инфраструктуры. В отчётах центра мониторинга компании отмечается, что фишинг и использование реальных учётных записей сотрудников — самые распространённые методы первоначального проникновения в сеть.

Отдельно эксперты предупреждают, что фишинговые рассылки становятся всё более качественными и персонализированными. Этому способствует активное использование злоумышленниками технологий искусственного интеллекта: по данным RED Security SOC, количество писем с признаками применения ИИ выросло на 53% по сравнению с прошлым годом.

Руководитель направления по обучению корпоративных пользователей Артём Мелехин отмечает, что уровень киберграмотности сотрудников снижается:

«В прошлом году 28% работников вводили свои логины и пароли на поддельных сайтах, сейчас — уже 34%. Компании должны выстраивать системное обучение персонала, иначе риск инцидентов будет только расти».

Тестовые письма для сотрудников напоминали обычные внутренние уведомления — о запуске нового портала ДМС, опросах по качеству кофе в офисе или корпоративных бонусных программах.

Чаще всего люди попадались на темы, связанные с привилегиями и бонусами, например, с просьбами оценить качество кофе или подтвердить участие в медицинской страховке.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru