Разработчики из России сократили расходы на ИИ-разметку втрое

Разработчики из России сократили расходы на ИИ-разметку втрое

Разработчики из России сократили расходы на ИИ-разметку втрое

Российские исследователи и разработчики из R&D-центра Т-Технологий, AIRI, ВШЭ, Университета Иннополис и Центра практического ИИ Сбера создали ATGen — инструмент, который помогает значительно сократить затраты на сбор и разметку данных для обучения генеративных языковых моделей. По их расчётам, расходы можно уменьшить в три раза.

Разработку представили на конференции ACL 2025 в Вене — одной из крупнейших в области вычислительной лингвистики.

Главная проблема при обучении ИИ для конкретных задач, например в юриспруденции или медицине, — это стоимость данных. Разметка требует либо привлечения экспертов, что дорого, либо значительных затрат на доступ к API больших языковых моделей. ATGen помогает обойтись меньшим объёмом данных — и при этом сохранить или даже улучшить качество модели.

Он работает по принципу активного обучения: модель сама выбирает, какие примеры ей нужны, чтобы эффективнее учиться. Это позволяет сократить объём ручной разметки в 2–4 раза.

ATGen — это не просто код. В нём есть:

  • все современные стратегии активного обучения (AL) для генерации текста,
  • веб-интерфейс для настройки, отслеживания процесса и просмотра результатов,
  • поддержка локальных и облачных языковых моделей, включая OpenAI и Anthropic,
  • поддержка batch API OpenAI — ещё один способ сэкономить на разметке,
  • встроенные инструменты оценки качества моделей.

Разработчики провели серию тестов на четырёх популярных задачах: ответы на вопросы (TriviaQA), решение задач (GSM8K), понимание текста (RACE) и суммаризация (AESLC). Стратегии активного выбора данных, такие как HUDS, HADAS и Facility Location, показали лучшие результаты по сравнению со случайной выборкой.

Оказалось, что чтобы достичь того же качества модели, что и при случайном отборе данных, достаточно размечать всего треть от объёма — это и даёт в итоге трёхкратную экономию.

ATGen объединяет сразу несколько вещей: современные методы активного обучения, автоматическую разметку с помощью больших моделей, удобный интерфейс и инструменты оценки качества. Это упрощает создание кастомных генеративных моделей — даже для небольших команд.

Фреймворк уже выложен на GitHub и распространяется под открытой лицензией MIT.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Тест Softline: Яндекс Браузер выявил 85 из 100 фишинговых сайтов

Эксперты ГК Softline провели ежегодное исследование, чтобы проверить, насколько хорошо популярные браузеры распознают фишинговые сайты — страницы, с помощью которых злоумышленники крадут личные данные пользователей. В тесте участвовали Chrome, Яндекс Браузер, Firefox, Opera, Edge, Safari на iOS, а также предустановленные Samsung Internet и Mi Browser на Android.

Согласно результатам проверки, Яндекс Браузер оказался самым эффективным: десктопная версия обнаружила 85 из 100 мошеннических сайтов, а мобильная — более 75.

Для сравнения, Chrome с антифишинговым расширением на десктопе выявил 44 угрозы, а без него — всего 8. Остальные браузеры показали следующие результаты:

  • Safari — 9 выявленных страниц,
  • Firefox — 8,
  • Opera — 6,
  • Edge — 5.

На платформах Android показатели оказались самыми низкими: Mi Browser определил два фишинговых сайта, а Samsung Internet — всего один. При этом браузеры на iOS продемонстрировали заметное улучшение по сравнению с прошлым годом.

Как проводилось исследование

Тестирование проходило в условиях, максимально приближенных к реальным. На смартфонах использовались физические устройства, а не эмуляторы. В основу легла выборка из 100 актуальных фишинговых страниц, предоставленных сервисом CyberDef от Infosecurity. Сайты с невалидными сертификатами исключались, чтобы результаты не искажались.

Особое внимание уделялось скорости реакции браузеров. Эксперты отправляли на проверку новые фишинговые сайты в течение нескольких часов после их обнаружения — ведь такие страницы живут недолго и часто исчезают уже в первый день.

Кого чаще всего подделывают

Почти половина (46%) фишинговых сайтов имитировала банки и инвестиционные платформы, ещё 13% — страницы соцсетей и мессенджеров, а 12% — опросы и голосования.

По словам специалистов, злоумышленники активно эксплуатируют известные бренды и актуальные темы вроде искусственного интеллекта и криптовалют, а схемы становятся всё сложнее.

«Сегодня мошеннические кампании часто состоят из нескольких этапов: сначала пользователя заманивают под видом розыгрыша или курса, а потом под предлогом оплаты или подтверждения выманивают деньги и данные. Чтобы казаться надёжными, такие сайты нередко показывают фейковые уведомления о “защищённом соединении”», — отмечают эксперты Softline.

Что используют браузеры для защиты

Современные браузеры применяют разные технологии против фишинга. Например, Safe Browsing в Chrome, SmartScreen в Edge и нейросетевые фильтры в Яндекс Браузере.

В отличие от старых систем, которые полагались на «чёрные списки» сайтов, новые механизмы анализируют содержимое страницы в момент загрузки, что помогает быстрее реагировать на появление фальшивых ресурсов.

Главный вывод исследования: даже при развитии встроенных технологий защиты пользователям стоит оставаться внимательными и не вводить личные данные на сомнительных сайтах, особенно если ссылка пришла в сообщении или письме.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru