Целью 53% всех утечек является хищение персональных и идентификационных данных

Целью 53% всех утечек является хищение персональных данных

Целью 53% всех утечек является хищение персональных данных

Компания Gemalto опубликовала результаты отчета своего Индекса критичности утечек данных (Breach Level Index/BLI) за первые шесть месяцев 2015 г., в течение которых было зафиксировано 888 инцидентов и скомпрометировано 246 млн записей по всему миру.

Как сообщили в Gemalto, по сравнению с первой половиной 2014 г. количество утечек данных увеличилось на 10%, при этом количество скомпрометированных записей данных за первые шесть месяцев этого года сократилось на 41%.

Снижение числа скомпрометированных данных объясняется тем, что в этом году количество зафиксированных крупномасштабных утечек в отрасли розничной торговли оказалось меньше, чем за аналогичный период прошлого года, пояснили в компании.

Несмотря на снижение общего количества скомпрометированных записей, в результате крупных утечек по-прежнему похищаются большие объёмы персональной информации и учетных данных. Самой крупной утечкой данных в первой половине 2015 г. стала атака с целью хищения идентификационных данных клиентов Anthem Insurance. В результате этой атаки, получившей 10 баллов по степени опасности по Индексу критичности утечек данных, было скомпрометировано 78,8 млн учетных записей, что составило почти одну треть (32%) от общего числа записей данных, похищенных за первое полугодие 2015 г.

Среди других крупных инцидентов, произошедших в отчетный период: утечка 21 млн учетных записей из Управления кадрами США (U.S. Office of Personnel Management) со степенью опасности BLI: 9.7; утечка 50 млн учетных записей в Генеральной дирекции по делам населения и гражданства Турции (Turkey’s General Directorate of Population and Citizenship Affairs) со степенью опасности BLI: 9.3; и утечка 20 млн учетных записей в российском сервисе Topface со степенью опасности BLI: 9.2. Фактически на долю 10 крупнейших утечек данных приходится 81,4% всех скомпрометированных записей данных, отметили в Gemalto, передает cnews.ru.

«Мы видим, что хакерам по-прежнему выгодно устраивать изощренные комплексные атаки, в результате которых можно вскрыть огромные массивы записей данных. Киберпреступникам все еще удается безнаказанно уходить с большим количеством чрезвычайно ценной информации. Например, в первой половине 2015 года в среднем в результате каждой атаки в отрасли здравоохранения было скомпрометировано более 450 тысяч записей данных, что на 200% больше, чем за аналогичный период прошлого года», — рассказал Джейсон Харт (Jason Hart), вице-президент и директор по технологиям в подразделении защиты данных Gemalto.

Утечки данных по источнику

На долю утечек, организованных государственными структурами, приходится всего лишь 2% от всех инцидентов, однако количество скомпрометированных данных в результате подобных атак составляет в общей сложности 41% от общего числа похищенных данных, что обусловлено масштабами инцидентов с Anthem Insurance и с Управлением кадрами в США. Хотя ни один из десяти крупнейших инцидентов в первой половине 2014 г. не был атакой госструктур, в этом году три из десяти крупнейших утечек, в том числе две самых крупных, были профинансированы государством, отметили в Gemalto.

В то же время, наиболее распространённым источником утечек в первой половине 2015 г. стали действия внешних злоумышленников внутри компании (malicious outsiders) — на долю подобных инцидентов пришлось 546 утечек, или 62% от всех утечек, по сравнению с 465 утечками (58%) в первой половине прошлого года. В результате действий внешних злоумышленников было скомпрометировано 56%, или 116 млн записей данных, тогда как в 2014 г. результаты были выше — 71,8%, или 298 млн записей данных.

Утечки данных по типу

Кража персональных и идентификационных данных остаётся основным видом утечек данных, на долю которых приходится 75% всех скомпрометированных записей и чуть больше половины (53%) всех утечек данных, зафиксированных в 2015 г. Пять из десяти крупнейших утечек, в том числе три наиболее крупные, получившие статус катастрофических по Индексу Gemalto, представляли собой хищение именно таких данных. Для сравнения, за аналогичный период прошлого года на хищение персональных и идентификационных данных пришлось семь из десяти крупнейших инцидентов, указали в Gemalto.

Утечки данных по отраслям

Что касается статистики по отраслям, то на утечки в правительственных учреждениях и в отрасли здравоохранения, по данным компании, пришлось примерно две трети всех скомпрометированных записей (31% и 34% соответственно), несмотря на то, что в этом году на отрасль здравоохранения пришлось всего лишь 21% от общего числа утечек по сравнению с 29% годом ранее. В секторе розничной торговли наблюдалось значительное снижение числа похищенных записей, на долю которых пришлось всего лишь 4% от общего числа скомпрометированных данных (по сравнению с 38% в прошлом году). В разбивке по регионам наибольшее число утечек — более трех четвертей (76%) — произошло в США, где было скомпрометировано около половины (49%) всех данных. На долю Турции пришлось 26% всех скомпрометированных данных, что, главным образом, обусловлено крупномасштабной утечкой в GDPCA, где из-за злоумышленных действий сторонних лиц было скомпрометировано 50 млн записей.

Между тем, уровень шифрования, использованного для защиты вскрытых данных (и позволяющего радикально снизить возможный урон от утечек данных), увеличился незначительно — до 4% от числа всех инцидентов (в первой половине 2014 г. этот показатель составлял 1%).

«Хотя статистика по количеству взломов постоянно меняется, очевидно, что сегодня ни у кого нет сомнений, что утечка данных даже для самых защищенных компаний — это всего лишь вопрос времени. Индекс критичности утечек данных свидетельствует о том, что большинство компаний не в состоянии защитить свои данные, если будет скомпрометирован их периметр безопасности. Хотя всё больше компаний начали внедрять технологии шифрования данных, но в большинстве случаев уровень их технологий просто не может справиться с разнообразностью и интенсивностью взломов подобных атак, — добавил Джейсон Харт. — Сегодня компаниям следует пересмотреть свое отношение к цифровым угрозам и начать внедрение нового подхода, ориентированного на обработку данных и более эффективное управление данными учетных записей и правами доступа. В том числе с внедрением технологий многофакторной аутентификации и строгого шифрования, чтобы сделать полученную конфиденциальную информацию бесполезной для злоумышленников».

По информации Gemalto, Индекс критичности утечек данных (BLI) включает в себя централизованную глобальную базу данных утечек и обеспечивает оценку уровня той или иной утечки данных по различным параметрам, в том числе по типу данных и количеству похищенных записей, источнику утечки, а также по тому, были ли украденные данные зашифрованы. Каждая утечка получает определенный балл, таким образом, индекс BLI представляет собой сравнительную таблицу утечек, позволяющую отличить мелкие и незначительные инциденты от действительно крупных и значимых утечек. Сведения, вошедшие в базу данных BLI, основаны на публично доступной информации об утечках.

Engram от DeepSeek: как LLM научили вспоминать, а не пересчитывать

Команда DeepSeek представила новый модуль Engram, который добавляет в трансформеры то, чего им давно не хватало, — встроенную память для быстрого извлечения знаний. Идея проста, но эффектная: вместо того чтобы снова и снова пересчитывать одни и те же локальные паттерны, модель может мгновенно «вспоминать» их через O(1)-lookup и тратить вычисления на более сложные задачи — рассуждения и дальние зависимости.

Engram работает не вместо Mixture-of-Experts (MoE), а вместе с ним. Если MoE отвечает за условные вычисления, то Engram добавляет вторую ось масштабирования — условную память.

По сути, это современная версия классических N-грамм, переосмысленная как параметрическая память, которая хранит устойчивые шаблоны: частые фразы, сущности и другие «статичные» знания.

Технически Engram подключается напрямую к трансформерному бэкбону DeepSeek. Он построен на хешированных таблицах N-грамм с мультихед-хешированием, лёгкой свёрткой по контексту и контекстно-зависимым гейтингом, который решает, сколько памяти «подмешать» в каждую ветку вычислений. Всё это аккуратно встраивается в существующую архитектуру без её радикальной переделки.

 

На больших моделях DeepSeek пошла ещё дальше. В версиях Engram-27B и Engram-40B используется тот же трансформерный бэкбон, что и у MoE-27B, но часть параметров перераспределяется: меньше маршрутизируемых экспертов — больше памяти Engram. В результате Engram-27B получает около 5,7 млрд параметров памяти, а Engram-40B — уже 18,5 млрд, при этом число активируемых параметров и FLOPs остаётся тем же.

Результаты предобучения на 262 млрд токенов выглядят убедительно. При одинаковом числе активных параметров Engram-модели уверенно обходят MoE-базу: снижается задержка, растут показатели на задачах знаний и рассуждений. Например, MMLU увеличивается с 57,4 до 60,4, ARC Challenge — с 70,1 до 73,8, BBH — с 50,9 до 55,9. Улучшения есть и в коде, и в математике — от HumanEval до GSM8K.

 

Отдельно исследователи посмотрели на длинный контекст. После расширения окна до 32 768 токенов с помощью YaRN Engram-27B либо сравнивается с MoE-27B, либо превосходит его  Причём иногда Engram достигает этого при меньших вычислительных затратах.

Механистический анализ тоже говорит в пользу памяти. Варианты с Engram формируют «готовые к предсказанию» представления уже на ранних слоях, а по CKA видно, что неглубокие слои Engram соответствуют гораздо более глубоким слоям MoE. Проще говоря, часть «глубины» модель получает бесплатно, выгружая рутину в память.

Авторы подытоживают: Engram и MoE не конкурируют, а дополняют друг друга. Условные вычисления хорошо справляются с динамикой и рассуждениями, а условная память — с повторяющимися знаниями. Вместе они дают более эффективное использование параметров и вычислений без ломки архитектуры.

RSS: Новости на портале Anti-Malware.ru