В России две трети утечек информации происходят в СМБ-компаниях

В России две трети утечек информации происходят в СМБ-компаниях

Компания InfoWatch, лидер российского рынка систем защиты корпоративной информации от внутренних угроз, впервые представила отчет, посвященный уровню безопасности информации в СМБ-компаниях. В 2013 году число скомпрометированных записей о клиентах и сотрудниках небольших и средних компаний превысило 129 млн. Если в мире на СМБ-сегмент пришлось чуть менее 40% от общего зафиксированных утечек, то в России этот показатель составил 61%, то есть почти две трети.

До недавнего времени считалось, что проблема утечек конфиденциальной информации не затрагивает малый и средний бизнес, поскольку стоимость информационных активов в сегменте СМБ не столь высока, как в крупных компаниях. Однако результаты исследования показывают, что такое представление ошибочно. В средних компаниях ущерб (в расчете на одну скомпрометированную запись) составляет около 16 долл. США, что на 2,5 долл. больше, чем в крупных организациях.

Доля масштабных утечек в среднем бизнесе также выше, чем в больших корпорациях. В ряде случаев, когда утекали базы данных с числом записей 5 тыс. и более, а ущерб составлял свыше 10 тыс. руб., речь шла именно о малых и средних компаниях (менее 50 ПК и 50-500 ПК соответственно). При этом для среднего бизнеса последствия от утечек крупных массивов ПДн часто более ощутимы, чем для крупных компаний. В таких отраслях, как торговля или туризм, где и представлены в основном небольшие организации, утечка базы данных клиентов может привести к ущербу, сопоставимому с оборотом компании. В целом, только по официальным данным совокупный ущерб СМБ-компаний от утечек составил в 2013 году более 2 млрд долларов.

Доля утечек «неопределенной» природы (когда невозможно определить, был ли инцидент случайным или умышленным), в секторе СМБ очень высока. В компаниях среднего размера этот показатель составил 23%, в небольших организациях – 43%. Для сравнения, в общемировой статистике наличие умысла остается невыясненным лишь в каждом десятом случае. Такая картина свидетельствует о недостаточном распространении DLP-систем в СМБ-секторе, так как использование технических средств позволяет сформировать полную картину инцидента, включая информацию о канале, природе и виновнике утечки.

Распределение утечек по каналам также говорит в пользу невысокого уровня безопасности информации в сегменте СМБ. Небольшие и средние компании чаще, чем крупные, страдают от утечек через съемные носители, сеть и электронную почту, но основным каналом утечек по-прежнему остается бумажная документация. То, что все эти каналы легко контролируются техническими средствами, говорит о слабом распространении DLP-систем в секторе СМБ.

Несмотря на повышение внимания государственных органов к защите персональных данных, в России в 2013 году на долю небольших операторов ПДн пришлось до 66% всех утечек. В мире доля утечек персональных данных в СМБ-компаниях составила 95%, что на 12 п.п. выше, чем в крупном бизнесе.

По данным Аналитического Центра InfoWatch, сотрудники и руководители небольших и средних компаний «сливают» информацию чаще, чем их коллеги в крупном бизнесе (76% против 45%). Этот мнимый парадокс объясняется тем, что крупные компании чаще делегируют определенные задачи контрагентам (утилизация бумажных документов, сервис ИТ-инфраструктуры и проч.), вследствие чего часть утечек неминуемо приходится на долю последних.

В целом же существенных отличий в распределении по виновным в компаниях СМБ и крупном бизнесе нет, что говорит о принципиальной схожести психологии и действий нарушителя либо халатного сотрудника, допустившего утечку. Это означает, что и подходы к защите информации, контролю доступа к данным в СМБ не должны существенно отличаться от подходов, принятых в крупных корпорациях.

«СМБ-компании могут серьезно повысить уровень безопасности информации, сосредоточив внимание на задаче по контролю «проблемных» каналов и защите персональных данных, – говоритСергей Хайрук, аналитик компании InfoWatch. – Несмотря на то, что внедрение систем защиты от утечек в СМБ-компаниях уже началось, сегмент СМБ ждет более простых, недорогих решений, нацеленных на закрытие основных брешей. Появление и широкое внедрение таких решений могло бы поднять защищенность информации в компаниях среднего и малого бизнеса до приемлемого уровня».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Языковые модели тупеют от мусорных данных из интернета

Группа исследователей из Университета Техаса и Университета Пердью предложила необычную идею: большие языковые модели (LLM), вроде ChatGPT, могут «тупить» от некачественных данных примерно так же, как люди — от бесконечных часов в соцсетях.

В отчёте специалисты выдвигают «гипотезу гниения мозга LLM». Суть проста: если продолжать дообучать языковую модель на «мусорных» текстах из интернета, она со временем начнёт деградировать — хуже запоминать, терять логику и способность к рассуждению.

Авторы понимают, что отличить хороший контент от плохого сложно. Поэтому они решили изучить 100 миллионов твитов с HuggingFace и отобрать те, что подходят под определение «junk».

В первую группу попали короткие твиты с большим количеством лайков и репостов — те самые, которые вызывают максимальное вовлечение, но несут минимум смысла. Во вторую — посты с «низкой семантической ценностью»: поверхностные темы, кликбейт, громкие заявления, конспирология и прочие «триггерные» темы.

 

Чтобы проверить качество отбора, результаты GPT-4o сверили с оценками трёх аспирантов — совпадение составило 76%.

Учёные обучили четыре разные языковые модели, комбинируя «мусорные» и «качественные» данные в разных пропорциях. Потом прогнали их через тесты:

  • ARC — на логическое рассуждение,
  • RULER — на память и работу с длинным контекстом,
  • HH-RLHF и AdvBench — на этические нормы,
  • TRAIT — на анализ «личностного стиля».

Результаты оказались любопытными: чем больше в обучающем наборе было «интернет-мусора», тем хуже модель справлялась с задачами на рассуждение и память. Однако влияние на «этичность» и «черты личности» было неоднозначным: например, модель Llama-8B с 50% «мусора» даже показала лучшие результаты по «открытости» и «низкой тревожности».

Исследователи сделали вывод: переизбыток интернет-контента может привести к деградации моделей и призвали разработчиков тщательнее отбирать данные для обучения. Особенно сейчас, когда всё больше онлайн-текста создаётся уже самими ИИ — и это может ускорить эффект так называемого model collapse, когда модели начинают обучаться на собственных ошибках.

Учёные шутят: если так пойдёт и дальше, возможно, придётся вернуться к книгам — хотя бы ради того, чтобы «накормить» модели чем-то действительно качественным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru