Engram от DeepSeek: как LLM научили вспоминать, а не пересчитывать

Engram от DeepSeek: как LLM научили вспоминать, а не пересчитывать

Engram от DeepSeek: как LLM научили вспоминать, а не пересчитывать

Команда DeepSeek представила новый модуль Engram, который добавляет в трансформеры то, чего им давно не хватало, — встроенную память для быстрого извлечения знаний. Идея проста, но эффектная: вместо того чтобы снова и снова пересчитывать одни и те же локальные паттерны, модель может мгновенно «вспоминать» их через O(1)-lookup и тратить вычисления на более сложные задачи — рассуждения и дальние зависимости.

Engram работает не вместо Mixture-of-Experts (MoE), а вместе с ним. Если MoE отвечает за условные вычисления, то Engram добавляет вторую ось масштабирования — условную память.

По сути, это современная версия классических N-грамм, переосмысленная как параметрическая память, которая хранит устойчивые шаблоны: частые фразы, сущности и другие «статичные» знания.

Технически Engram подключается напрямую к трансформерному бэкбону DeepSeek. Он построен на хешированных таблицах N-грамм с мультихед-хешированием, лёгкой свёрткой по контексту и контекстно-зависимым гейтингом, который решает, сколько памяти «подмешать» в каждую ветку вычислений. Всё это аккуратно встраивается в существующую архитектуру без её радикальной переделки.

 

На больших моделях DeepSeek пошла ещё дальше. В версиях Engram-27B и Engram-40B используется тот же трансформерный бэкбон, что и у MoE-27B, но часть параметров перераспределяется: меньше маршрутизируемых экспертов — больше памяти Engram. В результате Engram-27B получает около 5,7 млрд параметров памяти, а Engram-40B — уже 18,5 млрд, при этом число активируемых параметров и FLOPs остаётся тем же.

Результаты предобучения на 262 млрд токенов выглядят убедительно. При одинаковом числе активных параметров Engram-модели уверенно обходят MoE-базу: снижается задержка, растут показатели на задачах знаний и рассуждений. Например, MMLU увеличивается с 57,4 до 60,4, ARC Challenge — с 70,1 до 73,8, BBH — с 50,9 до 55,9. Улучшения есть и в коде, и в математике — от HumanEval до GSM8K.

 

Отдельно исследователи посмотрели на длинный контекст. После расширения окна до 32 768 токенов с помощью YaRN Engram-27B либо сравнивается с MoE-27B, либо превосходит его  Причём иногда Engram достигает этого при меньших вычислительных затратах.

Механистический анализ тоже говорит в пользу памяти. Варианты с Engram формируют «готовые к предсказанию» представления уже на ранних слоях, а по CKA видно, что неглубокие слои Engram соответствуют гораздо более глубоким слоям MoE. Проще говоря, часть «глубины» модель получает бесплатно, выгружая рутину в память.

Авторы подытоживают: Engram и MoE не конкурируют, а дополняют друг друга. Условные вычисления хорошо справляются с динамикой и рассуждениями, а условная память — с повторяющимися знаниями. Вместе они дают более эффективное использование параметров и вычислений без ломки архитектуры.

Февральское обновление Windows 11 вызвало бесконечную перезагрузку

Февральское обновление Microsoft для Windows 11 — KB5077181 — неожиданно стало источником серьёзных проблем. Пользователи жалуются на «бесконечную перезагрузку»: система после установки апдейта уходит в цикл рестартов и не загружается до рабочего стола.

Речь идёт о накопительном обновлении от 10 февраля 2026 года для Windows 11 версий 24H2 (сборка 26200.7840) и 25H2 (26100.7840). Пакет входит в традиционный Patch Tuesday и включает как патчи, так и улучшения качества, унаследованные от предыдущих обновлений.

По сообщениям на Reddit и профильных форумах, некоторые устройства после установки KB5077181 перезагружаются более 10-15 раз подряд. Войти в систему при этом невозможно.

Тем, кому всё же удаётся ненадолго попасть на рабочий стол, система показывает ошибки, связанные со службой System Event Notification Service (SENS) — например, сообщение «указанная процедура не найдена». Также упоминаются сбои DHCP, из-за которых пропадает интернет даже при активном подключении.

В других случаях обновление вообще не устанавливается — появляются коды ошибок 0x800f0983 и 0x800f0991. Это может говорить о зависимости проблемы от конкретного оборудования, драйверов или состояния системы обновлений.

KB5077181 — часть крупного февральского релиза, который, по данным Microsoft, закрывает 58 уязвимостей в компонентах Windows. Среди них — шесть 0-day, уже используемых в атаках и включённых в каталог CISA.

По состоянию на 15 февраля Microsoft не добавила информацию о «бесконечной перезагрузке» в раздел известных проблем на странице обновления или в панели состояния Windows.

Тем не менее количество жалоб в сообществах растёт.

Если Windows всё ещё запускается, пользователи советуют удалить обновление через Панель управления Программы и компоненты Просмотр установленных обновлений, а затем временно приостановить обновления, чтобы система не установила патч повторно.

Если устройство не загружается, можно воспользоваться средой восстановления Windows (прервать загрузку три раза подряд или использовать установочную флешку), открыть командную строку и выполнить:

wusa /uninstall /kb:5077181 /quiet /norestart

После восстановления рекомендуется проверить целостность системных файлов командой sfc /scannow.

Корпоративным пользователям эксперты советуют не разворачивать обновление массово, а тестировать его через поэтапные кольца (rings) или WSUS и внимательно отслеживать состояние загрузки устройств.

RSS: Новости на портале Anti-Malware.ru