Модели Text-to-SQL можно использовать для кражи данных или DoS

Модели Text-to-SQL можно использовать для кражи данных или DoS

Модели Text-to-SQL можно использовать для кражи данных или DoS

Исследователи рассказали о новых кибератаках, в которых злоумышленники используют модель Text-to-SQL для создания вредоносного кода, позволяющего собирать конфиденциальную информацию и проводить DoS-атаки.

«Для лучшего взаимодействия с пользователями БД-приложения применяют ИИ-технологии, способные переводить вопросы человека в SQL-запросы. Такая техника носит название Text-to-SQL», — объясняет один из специалистов Шеффилдского университета Ксютан Пень.

«Мы выяснили, что злоумышленники могут обойти модели Text-to-SQL и создать вредоносный код с помощью специально подготовленных вопросов. В результате это может привести к утечке данных или DoS, поскольку злонамеренный код будет выполняться в базе данных».

Согласно отчёту, эксперты тестировали свои выводы на двух коммерческих решениях — BAIDU-UNIT и AI2sql. Таким образом у них получился первый в истории случай, когда модели обработки текстов на естественном языке (Natural Language Processing, NLP) использовались в качестве вектора кибератаки.

Так называемые «атаки чёрного ящика» можно сравнить с SQL-инъекцией, когда вредоносная нагрузка копируется в сконструированный SQL-запрос. В итоге такие запросы могут позволить атакующему модифицировать базы данных бэкенда и вызвать DoS на сервере.

 

Кроме того, эксперты изучали возможность компрометации предварительно обученных языковых моделей (PLM), что должно было приводить к генерации вредоносных команд по специальным триггерам.

«Есть много способов установки бэкдоров в PLM-фреймворках: замена слов, разработка специальных подсказок и модификация стилей», — отмечают исследователи.

Атаки бэкдора на четыре разные модели с открытым исходным кодом — BART-BASE, BART-LARGE, T5-BASE и T5-3B — показали 100-проценную успешность с незначительным влиянием на производительность. В реальном сценарии такие атаки будет трудно детектировать.

ИИ научился находить владельцев скрытых аккаунтов в соцсетях

Искусственный интеллект, который многим кажется удобным помощником для работы и поиска информации, оказался ещё и очень полезным инструментом для деанонимизации. Новое исследование показало, что большие языковые модели могут заметно упростить поиск владельцев анонимных аккаунтов в соцсетях.

Схема такая: ИИ анализирует всё, что человек пишет в анонимном профиле, вычленяет характерные детали, а потом ищет совпадения на других платформах, где пользователь уже выступает под настоящим именем или хотя бы менее скрытно. И во многих тестах такой подход срабатывал довольно точно.

Авторы исследования, Саймон Лермен и Даниэль Палека, прямо говорят: большие языковые модели сделали подобные атаки не только возможными, но и экономически оправданными. По их мнению, это заставляет буквально заново пересмотреть представление о том, что вообще можно считать конфиденциальностью в интернете.

В рамках эксперимента исследователи «скармливали» модели анонимные аккаунты и просили собрать максимум доступной информации. Дальше ИИ сопоставлял детали из постов с другими открытыми источниками. Пример, который приводят авторы, выглядит почти бытовым: человек пишет о проблемах в школе и о прогулках с собакой по кличке Бисквит в парке Мишен Долорес. Для живого человека это может быть просто набор мелочей. Для ИИ — уже почти готовый пазл.

Дальше модель ищет, где ещё в интернете встречается такой же набор деталей, и с высокой вероятностью связывает анонимный аккаунт с конкретным человеком. И это, пожалуй, самое неприятное в истории: ничего взламывать тут не нужно. Достаточно открытых данных и модели, которая умеет быстро собирать разрозненные кусочки в цельную картину.

Исследователи отдельно предупреждают, что такая технология может использоваться не только мошенниками, но и государственными структурами для слежки за активистами и другими людьми, которые стараются высказываться анонимно.

А для киберпреступников это ещё и удобный путь к целевым атакам — например, к персонализированному фишингу, когда жертве пишут так убедительно, будто сообщение отправил знакомый человек.

По сути, ИИ делает массовое OSINT-наблюдение куда доступнее. Раньше для такой работы нужны были время, навыки и терпение. Теперь во многих случаях хватает публично доступной модели и подключения к интернету. Именно это и вызывает тревогу у специалистов по кибербезопасности.

Впрочем, исследователи и эксперты подчёркивают, что ИИ тут не всесилен. Большие языковые модели всё ещё ошибаются, а иногда и откровенно фантазируют. Из-за этого возможны ложные совпадения, когда человека могут ошибочно связать с аккаунтом, к которому он вообще не имеет отношения. И это уже отдельный риск, особенно если речь идёт о политических темах или публичных обвинениях.

Ещё одна важная проблема в том, что для деанонимизации могут использоваться не только соцсети. По словам экспертов, в дело могут идти и другие открытые данные: статистические публикации, записи, сведения о поступлении, медицинские наборы данных и другие массивы информации, которые раньше считались достаточно обезличенными. В эпоху ИИ этого обезличивания может уже не хватать.

В качестве первых мер защиты авторы советуют платформам жёстче ограничивать массовый сбор данных: вводить лимиты на выгрузку пользовательской информации, отслеживать автоматический скрейпинг и ограничивать массовый экспорт данных.

А обычным пользователям рекомендация простая: чуть внимательнее относиться к тому, какие повторяющиеся детали о себе они оставляют в открытом доступе.

RSS: Новости на портале Anti-Malware.ru