Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Открытая ИИ-модель научилась читать геномы от бактерий до человека

Команда Arc Institute вместе с инженерами NVIDIA представила Evo 2 — геномную ИИ-модель, которая умеет не только предсказывать следующий символ в ДНК, но и в целом довольно неплохо понимать генетический код во всех доменах жизни — от бактерий до человека.

Самое приятное для науки: проект выложили полностью открыто — с весами модели, кодом и датасетом.

Если первая Evo отлично чувствовала себя на бактериальных геномах (там гены часто стоят кучками по смыслу), то с эукариотами всё куда хаотичнее: интроны, сплайсинг, регуляторные участки, которые могут быть далеко от гена, и море слабых статистических сигналов. Evo 2 как раз и задумали как ответ на эту сложную логику больших геномов.

Технически это модель на архитектуре StripedHyena 2, которая умеет работать с очень длинным контекстом — до 1 млн нуклеотидов за раз. Обучали её на OpenGenome2: это почти 9 трлн пар оснований/«токенов» ДНК из всех доменов жизни (включая бактериофаги).

При этом датасет, по описанию авторов, специально «подрезали» по части вирусов, заражающих эукариот, чтобы снизить риски потенциального злоупотребления.

Интереснее всего даже не масштаб, а то, что модель «нащупала» сама. В аннотациях к работе описывают, что Evo 2 выучила признаки вроде границ экзонов / интронов (сплайс-сайтов), участков связывания транскрипционных факторов, даже некоторые структурные элементы белков — то есть куски биологии, которые человеку часто приходится ловить отдельными инструментами и с погрешностями.

А в прикладной части авторы показывают, что Evo 2 может оценивать влияние вариантов в геноме без дообучения под конкретную задачу — например, для вариантов гена BRCA1 в тестах заявляется точность выше 90% в классификации «похоже на доброкачественный» против «потенциально патогенный». Это ровно тот случай, когда модель может стать полезным фильтром: подсказать, на какие мутации тратить время в лаборатории в первую очередь.

У Zara утекли данные более 197 тысяч клиентов

В сеть попали данные более 197 тысяч клиентов Zara. Об этом сообщил сервис Have I Been Pwned, который проанализировал базу, связанную с недавним киберинцидентом у испанского ретейлера. По данным компании, утечка произошла у бывшего технологического подрядчика, где хранились базы, связанные с взаимодействием с клиентами на разных рынках.

Inditex ранее заявляла, что в скомпрометированных данных не было имён клиентов, телефонных номеров, адресов, паролей или платёжной информации. Работа магазинов и внутренних систем компании, по её словам, не пострадала.

Однако в базе, которую изучили в Have I Been Pwned, оказалось 197 400 уникальных адресов электронной почты, а также географические данные, сведения о покупках, SKU товаров, ID заказов и обращения в поддержку.

Ответственность за инцидент взяла на себя группировка ShinyHunters. Её члены заявили, что похитила около 140 ГБ данных, якобы получив доступ к BigQuery через скомпрометированные токены Anodot. Название взломанного подрядчика Inditex официально не раскрывала.

ShinyHunters в последние месяцы связывали с целой серией атак на крупные компании и сервисы. Группировка также известна кампаниями, в которых злоумышленники через социальную инженерию атакуют корпоративные SSO-аккаунты и затем получают доступ к связанным SaaS-приложениям.

Для клиентов Zara главный риск сейчас — фишинг. Даже если пароли и банковские карты не утекли, адреса электронной почты, данные о заказах и обращениях в поддержку могут использоваться для убедительных мошеннических писем.

Поэтому к сообщениям от Zara с просьбой перейти по ссылке, подтвердить заказ или обновить данные лучше относиться особенно осторожно.

RSS: Новости на портале Anti-Malware.ru