Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Команда Arc Institute вместе с инженерами NVIDIA представила Evo 2 — геномную ИИ-модель, которая умеет не только предсказывать следующий символ в ДНК, но и в целом довольно неплохо понимать генетический код во всех доменах жизни — от бактерий до человека.

Самое приятное для науки: проект выложили полностью открыто — с весами модели, кодом и датасетом.

Если первая Evo отлично чувствовала себя на бактериальных геномах (там гены часто стоят кучками по смыслу), то с эукариотами всё куда хаотичнее: интроны, сплайсинг, регуляторные участки, которые могут быть далеко от гена, и море слабых статистических сигналов. Evo 2 как раз и задумали как ответ на эту сложную логику больших геномов.

Технически это модель на архитектуре StripedHyena 2, которая умеет работать с очень длинным контекстом — до 1 млн нуклеотидов за раз. Обучали её на OpenGenome2: это почти 9 трлн пар оснований/«токенов» ДНК из всех доменов жизни (включая бактериофаги).

При этом датасет, по описанию авторов, специально «подрезали» по части вирусов, заражающих эукариот, чтобы снизить риски потенциального злоупотребления.

Интереснее всего даже не масштаб, а то, что модель «нащупала» сама. В аннотациях к работе описывают, что Evo 2 выучила признаки вроде границ экзонов / интронов (сплайс-сайтов), участков связывания транскрипционных факторов, даже некоторые структурные элементы белков — то есть куски биологии, которые человеку часто приходится ловить отдельными инструментами и с погрешностями.

А в прикладной части авторы показывают, что Evo 2 может оценивать влияние вариантов в геноме без дообучения под конкретную задачу — например, для вариантов гена BRCA1 в тестах заявляется точность выше 90% в классификации «похоже на доброкачественный» против «потенциально патогенный». Это ровно тот случай, когда модель может стать полезным фильтром: подсказать, на какие мутации тратить время в лаборатории в первую очередь.

Гарда DCAP ускорила аудит данных на 50-70%

Компания «Гарда» выпустила версию 5.5 системы аудита и защиты неструктурированных данных «Гарда DCAP». Обновление сосредоточено на повышении производительности, расширении совместимости с отечественным ПО и развитии инструментов поиска потенциальных угроз в корпоративных данных.

Одним из главных изменений стало ускорение работы системы. По данным разработчика, время проведения первичного аудита данных на пилотных проектах и внедрениях сократилось на 50-70%.

Также более чем на 50% выросла скорость поиска и отображения информации в интерфейсе. Эти изменения особенно актуальны для крупных организаций, которые работают с большими массивами данных.

В новой версии появилась поддержка СУБД ClickHouse и ArenaData QuickMarts. Кроме того, система теперь совместима с доменом Альт и СУБД Tantor. Решение может использоваться в инфраструктурах на базе Astra Linux, РЕД ОС и ОС Альт, что упрощает его внедрение в проектах импортозамещения.

Расширились и возможности контроля данных. В «Гарда DCAP» добавили механизмы поиска логинов, паролей, ключей доступа и цифровых сертификатов в корпоративных файлах. Такие проверки позволяют выявлять случаи небезопасного хранения учетных данных и снижать риск их компрометации.

Отдельное внимание разработчики уделили облачным сервисам. В версии 5.5 появилась поддержка анализа файлов, загружаемых в Nextcloud, что позволяет отслеживать перемещение данных и контролировать их использование в облачной среде.

Также система получила дополнительные аналитические функции. Теперь она умеет извлекать текст из файлов электронной подписи форматов .sig и .p7s, формировать отчеты по избыточным правам доступа сотрудников и сохранять расширенную информацию об инцидентах, включая IP-адреса пользователей.

Рынок решений класса DCAP сегодня развивается на фоне растущих объемов корпоративных данных и ужесточения требований к их защите. Поэтому производительность систем анализа, а также их совместимость с российскими платформами становятся для заказчиков не менее важными, чем сами функции контроля и аудита.

RSS: Новости на портале Anti-Malware.ru