Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Команда Arc Institute вместе с инженерами NVIDIA представила Evo 2 — геномную ИИ-модель, которая умеет не только предсказывать следующий символ в ДНК, но и в целом довольно неплохо понимать генетический код во всех доменах жизни — от бактерий до человека.

Самое приятное для науки: проект выложили полностью открыто — с весами модели, кодом и датасетом.

Если первая Evo отлично чувствовала себя на бактериальных геномах (там гены часто стоят кучками по смыслу), то с эукариотами всё куда хаотичнее: интроны, сплайсинг, регуляторные участки, которые могут быть далеко от гена, и море слабых статистических сигналов. Evo 2 как раз и задумали как ответ на эту сложную логику больших геномов.

Технически это модель на архитектуре StripedHyena 2, которая умеет работать с очень длинным контекстом — до 1 млн нуклеотидов за раз. Обучали её на OpenGenome2: это почти 9 трлн пар оснований/«токенов» ДНК из всех доменов жизни (включая бактериофаги).

При этом датасет, по описанию авторов, специально «подрезали» по части вирусов, заражающих эукариот, чтобы снизить риски потенциального злоупотребления.

Интереснее всего даже не масштаб, а то, что модель «нащупала» сама. В аннотациях к работе описывают, что Evo 2 выучила признаки вроде границ экзонов / интронов (сплайс-сайтов), участков связывания транскрипционных факторов, даже некоторые структурные элементы белков — то есть куски биологии, которые человеку часто приходится ловить отдельными инструментами и с погрешностями.

А в прикладной части авторы показывают, что Evo 2 может оценивать влияние вариантов в геноме без дообучения под конкретную задачу — например, для вариантов гена BRCA1 в тестах заявляется точность выше 90% в классификации «похоже на доброкачественный» против «потенциально патогенный». Это ровно тот случай, когда модель может стать полезным фильтром: подсказать, на какие мутации тратить время в лаборатории в первую очередь.

Claude начала массовые блокировки российских пользователей

Нейросеть Claude, разработанная компанией Anthropic, начала массово блокировать российских пользователей. Им возвращают стоимость оплаченных подписок, однако аккаунты удаляются вместе со всеми данными. По данным СМИ, пострадали несколько сотен человек — в основном ИТ-специалисты и предприниматели. Многие из них потеряли данные и результаты анализа, которые собирали месяцами.

О массовом удалении аккаунтов российских пользователей сообщает Baza.

По мнению независимого эксперта в сфере ИИ Дмитрия Антипова, массовые блокировки могут быть связаны с тем, что Claude из-за санкционных ограничений официально недоступен в России, однако многие пользователи обходили эти ограничения разными способами.

Другой эксперт, опрошенный Baza, Роман Адаменко, считает, что в Anthropic могли расценить нестабильное сетевое соединение и частую смену IP-адресов из-за использования VPN как признак нарушения правил сервиса.

Дмитрий Антипов также не исключает, что часть российских пользователей могла не пройти верификационные проверки. По его словам, они могли быть связаны с внутренней оптимизацией инфраструктуры Anthropic.

Вместе с тем доступ к зарубежным ИИ-моделям предлагают российские операторы связи. В частности, доступ к Claude и ряду других зарубежных моделей обещает обеспечить «МегаФон».

RSS: Новости на портале Anti-Malware.ru