Разработчики из России сократили расходы на ИИ-разметку втрое

Разработчики из России сократили расходы на ИИ-разметку втрое

Разработчики из России сократили расходы на ИИ-разметку втрое

Российские исследователи и разработчики из R&D-центра Т-Технологий, AIRI, ВШЭ, Университета Иннополис и Центра практического ИИ Сбера создали ATGen — инструмент, который помогает значительно сократить затраты на сбор и разметку данных для обучения генеративных языковых моделей. По их расчётам, расходы можно уменьшить в три раза.

Разработку представили на конференции ACL 2025 в Вене — одной из крупнейших в области вычислительной лингвистики.

Главная проблема при обучении ИИ для конкретных задач, например в юриспруденции или медицине, — это стоимость данных. Разметка требует либо привлечения экспертов, что дорого, либо значительных затрат на доступ к API больших языковых моделей. ATGen помогает обойтись меньшим объёмом данных — и при этом сохранить или даже улучшить качество модели.

Он работает по принципу активного обучения: модель сама выбирает, какие примеры ей нужны, чтобы эффективнее учиться. Это позволяет сократить объём ручной разметки в 2–4 раза.

ATGen — это не просто код. В нём есть:

  • все современные стратегии активного обучения (AL) для генерации текста,
  • веб-интерфейс для настройки, отслеживания процесса и просмотра результатов,
  • поддержка локальных и облачных языковых моделей, включая OpenAI и Anthropic,
  • поддержка batch API OpenAI — ещё один способ сэкономить на разметке,
  • встроенные инструменты оценки качества моделей.

Разработчики провели серию тестов на четырёх популярных задачах: ответы на вопросы (TriviaQA), решение задач (GSM8K), понимание текста (RACE) и суммаризация (AESLC). Стратегии активного выбора данных, такие как HUDS, HADAS и Facility Location, показали лучшие результаты по сравнению со случайной выборкой.

Оказалось, что чтобы достичь того же качества модели, что и при случайном отборе данных, достаточно размечать всего треть от объёма — это и даёт в итоге трёхкратную экономию.

ATGen объединяет сразу несколько вещей: современные методы активного обучения, автоматическую разметку с помощью больших моделей, удобный интерфейс и инструменты оценки качества. Это упрощает создание кастомных генеративных моделей — даже для небольших команд.

Фреймворк уже выложен на GitHub и распространяется под открытой лицензией MIT.

Amazon вычислила северокорейского засланца по задержке клавиатуры

Amazon рассказала о необычном случае: корпорации удалось выявить северокорейского «лжесотрудника», который работал в компании под видом удалённого системного администратора из США. Подозрения у службы безопасности вызвала задержка нажатий клавиш. Как выяснили специалисты Amazon, обычный удалённый сотрудник из США передаёт данные о нажатиях клавиш с задержкой в десятки миллисекунд.

В этом же случае лаг превышал 110 миллисекунд — слишком много для локальной работы. Проверка показала, что ноутбук, выданный «сотруднику», фактически управлялся удалённо, а доступ к нему имели операторы из КНДР.

Об этом рассказал Bloomberg со ссылкой на директора по безопасности Amazon Стивена Шмидта. По его словам, компания активно отслеживает попытки проникновения северокорейских ИТ-специалистов в американские корпорации — и именно благодаря такому проактивному подходу инцидент удалось быстро выявить.

«Если бы мы не искали таких работников целенаправленно, мы бы их не нашли», — отметил Шмидт.

По данным Amazon, с апреля 2024 года компания предотвратила более 1 800 попыток трудоустройства выходцев из КНДР под чужими личностями. Более того, число таких попыток продолжает расти — примерно на 27% квартал к кварталу. Цель подобных схем — зарабатывать валюту для Северной Кореи, а иногда и заниматься шпионажем или саботажем.

В этом конкретном случае выяснилось, что ноутбук физически находился в Аризоне, а помогала схеме гражданка США. Ранее в этом году она была приговорена к нескольким годам тюрьмы за содействие северокорейским «лжесотрудникам».

Помимо технических аномалий, злоумышленников часто выдают и мелочи в общении — неестественное использование американских идиом, ошибки с артиклями и странные формулировки на английском.

В Amazon подчёркивают, что подобные случаи — лишь верхушка айсберга. Помимо КНДР, попытки скрытого проникновения в западные компании приписывают и другим государствам. И если организации не ищут такие угрозы сознательно, есть риск, что они просто останутся незамеченными.

RSS: Новости на портале Anti-Malware.ru