Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Команда Arc Institute вместе с инженерами NVIDIA представила Evo 2 — геномную ИИ-модель, которая умеет не только предсказывать следующий символ в ДНК, но и в целом довольно неплохо понимать генетический код во всех доменах жизни — от бактерий до человека.

Самое приятное для науки: проект выложили полностью открыто — с весами модели, кодом и датасетом.

Если первая Evo отлично чувствовала себя на бактериальных геномах (там гены часто стоят кучками по смыслу), то с эукариотами всё куда хаотичнее: интроны, сплайсинг, регуляторные участки, которые могут быть далеко от гена, и море слабых статистических сигналов. Evo 2 как раз и задумали как ответ на эту сложную логику больших геномов.

Технически это модель на архитектуре StripedHyena 2, которая умеет работать с очень длинным контекстом — до 1 млн нуклеотидов за раз. Обучали её на OpenGenome2: это почти 9 трлн пар оснований/«токенов» ДНК из всех доменов жизни (включая бактериофаги).

При этом датасет, по описанию авторов, специально «подрезали» по части вирусов, заражающих эукариот, чтобы снизить риски потенциального злоупотребления.

Интереснее всего даже не масштаб, а то, что модель «нащупала» сама. В аннотациях к работе описывают, что Evo 2 выучила признаки вроде границ экзонов / интронов (сплайс-сайтов), участков связывания транскрипционных факторов, даже некоторые структурные элементы белков — то есть куски биологии, которые человеку часто приходится ловить отдельными инструментами и с погрешностями.

А в прикладной части авторы показывают, что Evo 2 может оценивать влияние вариантов в геноме без дообучения под конкретную задачу — например, для вариантов гена BRCA1 в тестах заявляется точность выше 90% в классификации «похоже на доброкачественный» против «потенциально патогенный». Это ровно тот случай, когда модель может стать полезным фильтром: подсказать, на какие мутации тратить время в лаборатории в первую очередь.

Уязвимость Dirty Frag даёт права root в Linux, а патчей пока нет

В Linux обнаружили новую серьёзную уязвимость Dirty Frag, которая позволяет локальному пользователю получить права root на большинстве популярных дистрибутивов. Проблема затрагивает ядра Linux примерно с 2017 года и связана с ошибками в механизмах записи кеша страницы в компонентах xfrm-ESP и RxRPC.

Dirty Frag похожа на уже нашумевшие Dirty Pipe и Copy Fail: атакующему достаточно иметь локальный доступ к системе и запустить небольшой код.

После этого он может повысить привилегии до администратора без сложных условий гонки (race condition) или редкой конфигурации.

Под ударом оказались многие актуальные Linux-дистрибутивы, включая Ubuntu, Arch, RHEL, openSUSE, Fedora, AlmaLinux и другие. Согласно сообщениям исследователей, брешь также воспроизводится в WSL2.

 

Самое скверное, что информация стала публичной до выпуска патчей. По данным Phoronix, эмбарго было нарушено третьей стороной, поэтому исследователь опубликовал детали раньше планируемого срока. На момент раскрытия патчей для основных дистрибутивов ещё не было.

В качестве временной меры специалисты предлагают отключить модули esp4, esp6 и rxrpc, если они не используются. Они связаны с IPsec и RxRPC, поэтому для большинства обычных серверов такая мера не должна сломать работу, но для систем с IPsec её нужно оценивать аккуратно.

RSS: Новости на портале Anti-Malware.ru