Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Команда Arc Institute вместе с инженерами NVIDIA представила Evo 2 — геномную ИИ-модель, которая умеет не только предсказывать следующий символ в ДНК, но и в целом довольно неплохо понимать генетический код во всех доменах жизни — от бактерий до человека.

Самое приятное для науки: проект выложили полностью открыто — с весами модели, кодом и датасетом.

Если первая Evo отлично чувствовала себя на бактериальных геномах (там гены часто стоят кучками по смыслу), то с эукариотами всё куда хаотичнее: интроны, сплайсинг, регуляторные участки, которые могут быть далеко от гена, и море слабых статистических сигналов. Evo 2 как раз и задумали как ответ на эту сложную логику больших геномов.

Технически это модель на архитектуре StripedHyena 2, которая умеет работать с очень длинным контекстом — до 1 млн нуклеотидов за раз. Обучали её на OpenGenome2: это почти 9 трлн пар оснований/«токенов» ДНК из всех доменов жизни (включая бактериофаги).

При этом датасет, по описанию авторов, специально «подрезали» по части вирусов, заражающих эукариот, чтобы снизить риски потенциального злоупотребления.

Интереснее всего даже не масштаб, а то, что модель «нащупала» сама. В аннотациях к работе описывают, что Evo 2 выучила признаки вроде границ экзонов / интронов (сплайс-сайтов), участков связывания транскрипционных факторов, даже некоторые структурные элементы белков — то есть куски биологии, которые человеку часто приходится ловить отдельными инструментами и с погрешностями.

А в прикладной части авторы показывают, что Evo 2 может оценивать влияние вариантов в геноме без дообучения под конкретную задачу — например, для вариантов гена BRCA1 в тестах заявляется точность выше 90% в классификации «похоже на доброкачественный» против «потенциально патогенный». Это ровно тот случай, когда модель может стать полезным фильтром: подсказать, на какие мутации тратить время в лаборатории в первую очередь.

Суд запретил материалы ЯПлакалъ, но РКН не нашёл, что именно блокировать

Три юмористических сайта, материалы которых запретил суд, не попали в реестр заблокированных ресурсов из-за отсутствия в судебном решении конкретного перечня запрещённых материалов и их адресов.

Роскомнадзор не нашёл в документе указаний на страницы с контентом, признанным «унижающим человеческое достоинство, а также направленным на дискриминацию и оскорбление лиц по признакам национальной и расовой принадлежности».

Чертановский суд Москвы вынес решение о запрете материалов, размещённых на трёх ресурсах юмористической направленности.

Среди них оказался один из старейших развлекательных порталов «ЯПлакалъ», одна из известных площадок для распространения фотожаб и демотиваторов, а также сайты «Анекдотов стрит» и «Анекдото.net». Истцом по делу выступала прокуратура.

Как указано в решении суда, запрету подлежат «материалы (юмористический контент в текстовом формате), содержащие высказывания, которые можно квалифицировать как унижающие человеческое достоинство, а также направленные на дискриминацию и оскорбление лиц по признакам национальной и расовой принадлежности». При этом доступ к таким материалам является открытым.

Однако «ЯПлакалъ» и «Анекдотов стрит» продолжают открываться. Эти ресурсы также не внесены в реестр запрещённых сайтов, который ведёт Роскомнадзор.

Как сообщили в пресс-службе регулятора в ответ на запрос ТАСС, решение суда поступило в ведомство 6 мая. Однако в нём не указаны конкретные материалы, которых касается запрет.

«В решении не указаны конкретные материалы, которые признаются запрещёнными, а также конкретные указатели страниц сайтов, на которых они размещены, в связи с чем ведомство направит в суд запрос для уточнения конкретных страниц с запрещённой информацией», — заявили в Роскомнадзоре.

RSS: Новости на портале Anti-Malware.ru