Разработчики из России сократили расходы на ИИ-разметку втрое

Разработчики из России сократили расходы на ИИ-разметку втрое

Разработчики из России сократили расходы на ИИ-разметку втрое

Российские исследователи и разработчики из R&D-центра Т-Технологий, AIRI, ВШЭ, Университета Иннополис и Центра практического ИИ Сбера создали ATGen — инструмент, который помогает значительно сократить затраты на сбор и разметку данных для обучения генеративных языковых моделей. По их расчётам, расходы можно уменьшить в три раза.

Разработку представили на конференции ACL 2025 в Вене — одной из крупнейших в области вычислительной лингвистики.

Главная проблема при обучении ИИ для конкретных задач, например в юриспруденции или медицине, — это стоимость данных. Разметка требует либо привлечения экспертов, что дорого, либо значительных затрат на доступ к API больших языковых моделей. ATGen помогает обойтись меньшим объёмом данных — и при этом сохранить или даже улучшить качество модели.

Он работает по принципу активного обучения: модель сама выбирает, какие примеры ей нужны, чтобы эффективнее учиться. Это позволяет сократить объём ручной разметки в 2–4 раза.

ATGen — это не просто код. В нём есть:

  • все современные стратегии активного обучения (AL) для генерации текста,
  • веб-интерфейс для настройки, отслеживания процесса и просмотра результатов,
  • поддержка локальных и облачных языковых моделей, включая OpenAI и Anthropic,
  • поддержка batch API OpenAI — ещё один способ сэкономить на разметке,
  • встроенные инструменты оценки качества моделей.

Разработчики провели серию тестов на четырёх популярных задачах: ответы на вопросы (TriviaQA), решение задач (GSM8K), понимание текста (RACE) и суммаризация (AESLC). Стратегии активного выбора данных, такие как HUDS, HADAS и Facility Location, показали лучшие результаты по сравнению со случайной выборкой.

Оказалось, что чтобы достичь того же качества модели, что и при случайном отборе данных, достаточно размечать всего треть от объёма — это и даёт в итоге трёхкратную экономию.

ATGen объединяет сразу несколько вещей: современные методы активного обучения, автоматическую разметку с помощью больших моделей, удобный интерфейс и инструменты оценки качества. Это упрощает создание кастомных генеративных моделей — даже для небольших команд.

Фреймворк уже выложен на GitHub и распространяется под открытой лицензией MIT.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

19-летнего британца обвинили в атаках Scattered Spider на суды США

Минюст США раскрыл обвинения против 19-летнего жителя Восточного Лондона Талхи Джубайра. По версии следствия, он причастен как минимум к 120 кибератакам, в том числе на систему судов США. Общий ущерб оценивается более чем в $115 млн.

Джубайра арестовали 17 сентября в его доме, сообщило Национальное агентство по борьбе с преступностью (NCA).

В тот же день в Лондоне перед судом предстал и его предполагаемый сообщник — 18-летний Оуэн Флауэрс. Их обвиняют в атаке на ИТ-систему Transport for London в 2024 году, после которой транспортное ведомство несколько месяцев восстанавливало работу.

По данным NCA, за атакой стояла группировка Scattered Spider — англоязычная команда молодых хакеров, известная агрессивными методами социальной инженерии и связями с криминальным сообществом «the Com».

Что известно о действиях Джубайра:

  • В июле 2024 года ФБР изъяло серверы, которые, как утверждается, он контролировал. Там нашли следы взлома более 120 компаний, включая 47 в США.
  • Среди жертв был объект критической инфраструктуры в Нью-Джерси, а также сама система судов США.
  • В январе 2025 года хакеры через техподдержку получили доступ к трем аккаунтам, включая учетку федерального судьи. С их помощью искали данные о Scattered Spider и даже отправили фальшивый запрос в финкомпанию, чтобы выманить пользовательские данные.
  • На сервере обнаружили криптокошелёк примерно с $36 млн, из которых $8,4 млн удалось вывести уже в момент изъятия.

Сейчас оба подростка находятся под арестом, их ждёт новое судебное заседание. Будет ли США добиваться экстрадиции Джубайра, пока неизвестно.

Ранее мы писали, что в США вынесли приговор одному из ключевых участников кибергруппы Scattered Spider — 25-летнему Ноа Майклу Урбану. Суд назначил ему 10 лет лишения свободы и обязал выплатить $13 млн компенсации жертвам.

А в апреле суд Флориды заслушал заявление Ноя Урбана (Noah Michael Urban) о признании вины в рамках двух уголовных дел о коллективной краже криптовалюты через фишинг (второе с тем же фигурантом рассматривают в Калифорнии).

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru