ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY представила новую версию ABBYY FineReader Engine 12 — инструментария разработчика для распознавания информации из отсканированных бумажных и PDF-документов, изображений и фотографий, а также скриншотов с экранов устройств, в том числе промышленных дисплеев.

В новой версии, созданной с применением сверточных нейронных сетей, используются технологии обработки естественного языка и машинного обучения. С их помощью можно определить тип документа не только по внешним признакам, но и по его смыслу, выявляя малейшие отличия между разными категориями.

Среди новых возможностей можно отметить:

  • Интеллектуальная классификация: технология самостоятельно выявляет внешние и смысловые признаки, характерные для документов. Эффективность работы можно регулировать за счет установления баланса между полнотой и точностью классификации.
  • Улучшен анализ и восстановление логической структуры документа с помощью алгоритмов на основе искусственного интеллекта и технологий ABBYY-ADRT (Adaptive Document Recognition Technology). ABBYY FineReader Engine делит документ на отдельные страницы и анализирует оформление и содержание каждой из них. При экспорте в различные форматы файлов получается точно воссозданный документ с полным сохранением элементов форматирования, например, шрифтов, колонтитулов, колонок и др. Значительно улучшено качество восстановления таблиц: ячеек с текстом, пунктирных границ, цветов линий.
  • Более быстрый и расширенный экспорт в XML.
  • Появилась возможность сохранять файлы в форматах HTML 5 и ALTO 3.1. Кроме того, теперь документы можно экспортировать в новые форматы PDF: PDF 2.0, PDF/UA, PDF/A-2b и PDF/A-3b с возможностью поиска, что особенно важно для архивного хранения.
  • Более надежное шифрование: поддержка 256-битного AES-шифрования и поддержка символов юникода позволяет использовать пароли независимо от операционной системы.
  • Поддержка облачных технологий: теперь развернуть приложения с использованием ABBYY FineReader Engine можно и на облачных платформах, таких как Microsoft Azure.

«В новом ABBYY FineReader Engine мы использовали передовые технологии в области машинного обучения и обработки естественного языка, которые позволяют наиболее точно классифицировать документы по смыслу и распознавать полезные данные. Эти возможности будут особенно востребованы в системах предотвращения утечек данных, технологиях машинного зрения и платформах для управления контентом предприятий, в которых важную роль играет быстрое распознавание документов», – комментирует Дмитрий Шушкин, генеральный директор ABBYY Россия.

Инструментарий ABBYY FineReader Engine 12 содержит готовые примеры кода, которые помогут ускорить разработку приложений. С их помощью можно решить наиболее распространенные задачи по интеллектуальной обработке документов.

ABBYY FineReader Engine поддерживает 208 языков распознавания, в том числе в новой версии добавлены фарси и бирманский. Также технология позволяет распознавать документы, которые содержат сразу несколько языков. Это расширяет возможности компаний при выводе решений на международный рынок.

WMX представила систему защиты сайтов от «умных ботов»

Российская компания WMX (ООО «Вебмониторэкс») представила новое решение для защиты веб-ресурсов от автоматизированных атак — WMX SmartBot Protection. Продукт рассчитан не только на массовый бот-трафик, но и на более сложных ботов, которые умеют имитировать поведение обычных пользователей.

Проблема здесь вполне прикладная. Значительная часть интернет-трафика сегодня создаётся не людьми, а автоматизированными скриптами.

Такие боты могут собирать данные с сайтов, перебирать пароли, создавать фейковые аккаунты, искать уязвимости и в целом мешать нормальной работе онлайн-сервисов. Особенно чувствительны к этому интернет-магазины, финансовые сервисы, агрегаторы, доски объявлений, медиаплатформы и стриминговые площадки.

При этом боты становятся всё менее примитивными. Если раньше их можно было сравнительно легко отсечь по шаблонному поведению, то теперь они нередко умеют маскироваться под живого пользователя: заходят через браузер, имитируют движение мыши и даже проходят простые CAPTCHA. Из-за этого стандартных фильтров уже часто недостаточно.

В WMX говорят, что их система использует несколько уровней проверки. Сначала трафик фильтруется по базовым признакам — например, по IP-адресам и User-Agent. Если этого недостаточно, дальше подключается анализ браузерного окружения: параметров экрана, шрифтов, а также особенностей canvas и WebGL, которые могут указывать на эмуляторы или headless-браузеры.

Следующий этап — поведенческий анализ. Система смотрит, как именно ведёт себя пользователь: есть ли движения мыши, насколько быстро заполняются формы и не выглядят ли действия слишком механическими. После этого подключаются эвристики, которые оценивают уже не отдельные признаки, а их сочетание. Например, если кто-то кликает строго по центру кнопок через одинаковые интервалы времени, это может выглядеть подозрительно, даже если по отдельности такие действия не кажутся аномальными.

При необходимости могут использоваться и дополнительные проверки, включая CAPTCHA.

Новое решение работает в связке с WMX ПроWAF, веб-экраном компании. Логика здесь довольно понятная: антибот-система должна отсеивать автоматизированный трафик, а WAF — уже защищать приложение от попыток эксплуатации уязвимостей вроде SQL-инъекций, XSS или RCE. Заодно это снижает нагрузку на инфраструктуру, потому что до основного контура доходит уже более «чистый» трафик.

В компании также сообщили, что в будущих версиях собираются добавить систему скоринга угроз и механизмы, связанные с ML, для автоматического формирования новых эвристик.

RSS: Новости на портале Anti-Malware.ru