Российские учёные ускорили обучение нейросетей в распределённых системах

Российские учёные ускорили обучение нейросетей в распределённых системах

Российские учёные ускорили обучение нейросетей в распределённых системах

Российские исследователи из Центра практического искусственного интеллекта Сбербанка и МФТИ предложили метод, который помогает снизить нагрузку на вычислительные ресурсы и ускорить обучение нейросетей в распределённых системах. Работа «Ускоренные методы со сжатыми коммуникациями для гомогенных задач распределённой оптимизации» будет представлена на международной конференции AAAI’25.

Сейчас крупные нейросети содержат миллиарды параметров, и для их обучения часто используют распределённые системы: данные разделяют между тысячами машин.

Однако в таких условиях значительная часть времени уходит на обмен информацией между устройствами, и при неэффективной передаче данных обучение может идти медленнее, чем в централизованном варианте.

Предложенный метод уменьшает количество обменов данными между устройствами, используя гомогенность локальных выборок и сжатие передаваемой информации. Это позволяет синхронизироваться реже и пересылать меньше данных без потери качества модели. Такой подход особенно полезен, если пропускная способность сети ограничена, а задержки мешают быстрому обучению.

По словам Глеба Гусева, директора Центра практического искусственного интеллекта Сбербанка, ключевая задача разработки — снизить коммуникационные издержки. Использование похожести данных и методов сжатия даёт возможность ускорить обучение и уменьшить энергозатраты.

Александр Безносиков, доцент МФТИ, отметил, что в алгоритме объединили ускорение, сжатие и учёт схожести данных. Это позволило добиться рекордно низкой коммуникационной сложности и при правильных настройках значительно сократить время обучения без потери точности — что важно для внедрения ИИ в системах с ограниченными ресурсами, включая сети с edge-устройствами.

В Сеть выложили базу с 6,8 млрд адресов электронной почты

На одном из популярных форумов для киберпреступников появился интересный пост: пользователь под ником Adkka72424 заявил, что собрал базу из 6,8 млрд уникальных адресов электронной почты. По его словам, на это ушло несколько месяцев; он выгружал данные из логов инфостилеров, ULP-коллекций и различных баз, циркулирующих в Сети.

Цифра звучит почти фантастически. Однако исследователи Cybernews изучили массив объёмом около 150 ГБ и пришли к несколько иным выводам.

Формально автор не соврал: в файле действительно более 6,8 млрд строк. Но внутри оказалось множество дубликатов и откровенно невалидных адресов. После «очистки» реальное количество рабочих имейлов, по оценке экспертов, может составлять около 3 млрд.

 

Даже если это «всего лишь» 3 млрд, масштаб всё равно впечатляющий. В эпоху автоматизации фишинговых кампаний и атак вида «credential stuffing» объём решает многое. При конверсии всего 0,001% из трёх миллиардов злоумышленники теоретически могут получить около 30 тысяч потенциальных жертв. Для массовых рассылок этого более чем достаточно.

 

Сам автор публикации утверждает, что хотел «повысить осведомлённость» и привлечь внимание эксперта по утечкам Троя Ханта. Параллельно он дал традиционный совет пользователям: сменить пароли и включить двухфакторную аутентификацию. Впрочем, по комментариям на форуме видно, что аудитория интересуется базой прежде всего как инструментом для кросс-проверки других утечек: сопоставляя записи, злоумышленники могут быстрее находить «свежие» скомпрометированные аккаунты и экономить время.

RSS: Новости на портале Anti-Malware.ru