Engram от DeepSeek: как LLM научили вспоминать, а не пересчитывать

Engram от DeepSeek: как LLM научили вспоминать, а не пересчитывать

Engram от DeepSeek: как LLM научили вспоминать, а не пересчитывать

Команда DeepSeek представила новый модуль Engram, который добавляет в трансформеры то, чего им давно не хватало, — встроенную память для быстрого извлечения знаний. Идея проста, но эффектная: вместо того чтобы снова и снова пересчитывать одни и те же локальные паттерны, модель может мгновенно «вспоминать» их через O(1)-lookup и тратить вычисления на более сложные задачи — рассуждения и дальние зависимости.

Engram работает не вместо Mixture-of-Experts (MoE), а вместе с ним. Если MoE отвечает за условные вычисления, то Engram добавляет вторую ось масштабирования — условную память.

По сути, это современная версия классических N-грамм, переосмысленная как параметрическая память, которая хранит устойчивые шаблоны: частые фразы, сущности и другие «статичные» знания.

Технически Engram подключается напрямую к трансформерному бэкбону DeepSeek. Он построен на хешированных таблицах N-грамм с мультихед-хешированием, лёгкой свёрткой по контексту и контекстно-зависимым гейтингом, который решает, сколько памяти «подмешать» в каждую ветку вычислений. Всё это аккуратно встраивается в существующую архитектуру без её радикальной переделки.

 

На больших моделях DeepSeek пошла ещё дальше. В версиях Engram-27B и Engram-40B используется тот же трансформерный бэкбон, что и у MoE-27B, но часть параметров перераспределяется: меньше маршрутизируемых экспертов — больше памяти Engram. В результате Engram-27B получает около 5,7 млрд параметров памяти, а Engram-40B — уже 18,5 млрд, при этом число активируемых параметров и FLOPs остаётся тем же.

Результаты предобучения на 262 млрд токенов выглядят убедительно. При одинаковом числе активных параметров Engram-модели уверенно обходят MoE-базу: снижается задержка, растут показатели на задачах знаний и рассуждений. Например, MMLU увеличивается с 57,4 до 60,4, ARC Challenge — с 70,1 до 73,8, BBH — с 50,9 до 55,9. Улучшения есть и в коде, и в математике — от HumanEval до GSM8K.

 

Отдельно исследователи посмотрели на длинный контекст. После расширения окна до 32 768 токенов с помощью YaRN Engram-27B либо сравнивается с MoE-27B, либо превосходит его  Причём иногда Engram достигает этого при меньших вычислительных затратах.

Механистический анализ тоже говорит в пользу памяти. Варианты с Engram формируют «готовые к предсказанию» представления уже на ранних слоях, а по CKA видно, что неглубокие слои Engram соответствуют гораздо более глубоким слоям MoE. Проще говоря, часть «глубины» модель получает бесплатно, выгружая рутину в память.

Авторы подытоживают: Engram и MoE не конкурируют, а дополняют друг друга. Условные вычисления хорошо справляются с динамикой и рассуждениями, а условная память — с повторяющимися знаниями. Вместе они дают более эффективное использование параметров и вычислений без ломки архитектуры.

Российские компании пояснили свои методы обнаружения VPN у пользователей

Российские маркетплейсы и другие крупные онлайн-платформы начали ограничивать доступ к своим ресурсам для пользователей, которые заходят через VPN-сервисы. Представители бизнеса пояснили СМИ, как они выявляют средства обхода на стороне пользователей.

В ряде случаев сервисы могут просто замедлять загрузку страниц или отдельных элементов сайта. Иными словами, площадка вроде бы открывается, но пользоваться ею становится заметно менее удобно.

Как утверждают собеседники «Коммерсанта», компаниям рекомендовано соблюдать ограничения, иначе их ресурсы могут исключить из «белых списков», а сами ИТ-организации — лишить аккредитации Минцифры.

При этом бизнесу ещё предстоит разобраться, как именно выполнять новые требования на практике: отрасль говорит, что многие детали пока остаются не до конца понятными.

Чтобы сократить число ложных срабатываний, ставка делается на «белые списки» корпоративных VPN и легитимных прокси-серверов. По словам источника, близкого к правительству, такой список уже ведёт Роскомнадзор, и в нём сейчас около 75 тысяч IP-адресов.

Компании могут передавать данные о своих сервисах через личный кабинет ведомства, чтобы исключить их из фильтрации на ТСПУ. Основные условия для таких VPN — ограничение доступа к запрещённым ресурсам и взаимодействие с регулятором.

Сами компании признают: технически задача решаемая. В «Почте России» заявили, что серьёзной перестройки архитектуры не потребуется, а возможные расходы будут укладываться в текущие планы по развитию ИТ. В РЖД напомнили, что часть ограничений для зарубежного трафика действует у них ещё с 2022 года на фоне кибератак, и сообщили, что уже подали материалы для включения корпоративных VPN в «белые списки». В «Росатоме» тоже заверили, что новая схема не должна критически повлиять на работу сервисов.

А вот в Ассоциации компаний интернет-торговли настроены заметно менее оптимистично. Там считают, что для онлайн-ретейла такие меры могут обернуться серьёзным падением трафика. В АКИТ сравнили ситуацию с запретом покупателям заходить в обычный магазин: часть цифровых сервисов и так работает нестабильно, а теперь пользователи с включённым VPN могут и вовсе потерять доступ к привычным площадкам.

По словам участников рынка, многие крупные сервисы уже давно так или иначе отслеживают подключения через VPN. Некоторые приложения, в том числе банковские сервисы и «Госуслуги», и раньше корректно работали только при выключенном VPN. Поэтому для части игроков речь идёт не о полной перестройке, а скорее о доработке уже существующих механизмов.

С технической точки зрения, как поясняют собеседники СМИ, выявлять обычный VPN-трафик можно и без дорогих систем глубокого анализа трафика. На уровне приложений разработчики видят IP-адреса и могут по ним строить логику ограничений. Вопрос скорее в масштабе, качестве классификации и дополнительных трудозатратах. Одни участники рынка говорят о заметном росте расходов, другие считают, что речь идёт в основном о перераспределении ресурсов разработки, а не о крупных закупках оборудования.

При этом главная проблема сейчас даже не в технике, а в правилах игры. У бизнеса пока нет чёткого понимания, как именно передавать данные о VPN в Роскомнадзор, в каком формате это делать и на каких правовых основаниях. На рынке также обращают внимание, что вопрос ответственности компаний за несоблюдение этих требований публично пока не прояснён.

Собеседники СМИ отмечают, что Минцифры продолжает обсуждать спорные моменты с отраслью и ищет вариант, который позволил бы ограничить доступ через VPN с минимальными последствиями для пользователей. По одной из оценок, это выглядит как компромиссный сценарий: вместо прямой административной ответственности для граждан акцент делают на технических ограничениях со стороны самих сервисов.

На этом фоне показательно выглядит и реакция сообщества разработчиков. Так, энтузиаст под ником xtclovver уже выпустил открытый тестовый проект RKNHarderingAndroid-приложение на Kotlin для выявления VPN и прокси на устройстве по методике обнаружения средств обхода блокировок.

RSS: Новости на портале Anti-Malware.ru