ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY представила новую версию ABBYY FineReader Engine 12 — инструментария разработчика для распознавания информации из отсканированных бумажных и PDF-документов, изображений и фотографий, а также скриншотов с экранов устройств, в том числе промышленных дисплеев.

В новой версии, созданной с применением сверточных нейронных сетей, используются технологии обработки естественного языка и машинного обучения. С их помощью можно определить тип документа не только по внешним признакам, но и по его смыслу, выявляя малейшие отличия между разными категориями.

Среди новых возможностей можно отметить:

  • Интеллектуальная классификация: технология самостоятельно выявляет внешние и смысловые признаки, характерные для документов. Эффективность работы можно регулировать за счет установления баланса между полнотой и точностью классификации.
  • Улучшен анализ и восстановление логической структуры документа с помощью алгоритмов на основе искусственного интеллекта и технологий ABBYY-ADRT (Adaptive Document Recognition Technology). ABBYY FineReader Engine делит документ на отдельные страницы и анализирует оформление и содержание каждой из них. При экспорте в различные форматы файлов получается точно воссозданный документ с полным сохранением элементов форматирования, например, шрифтов, колонтитулов, колонок и др. Значительно улучшено качество восстановления таблиц: ячеек с текстом, пунктирных границ, цветов линий.
  • Более быстрый и расширенный экспорт в XML.
  • Появилась возможность сохранять файлы в форматах HTML 5 и ALTO 3.1. Кроме того, теперь документы можно экспортировать в новые форматы PDF: PDF 2.0, PDF/UA, PDF/A-2b и PDF/A-3b с возможностью поиска, что особенно важно для архивного хранения.
  • Более надежное шифрование: поддержка 256-битного AES-шифрования и поддержка символов юникода позволяет использовать пароли независимо от операционной системы.
  • Поддержка облачных технологий: теперь развернуть приложения с использованием ABBYY FineReader Engine можно и на облачных платформах, таких как Microsoft Azure.

«В новом ABBYY FineReader Engine мы использовали передовые технологии в области машинного обучения и обработки естественного языка, которые позволяют наиболее точно классифицировать документы по смыслу и распознавать полезные данные. Эти возможности будут особенно востребованы в системах предотвращения утечек данных, технологиях машинного зрения и платформах для управления контентом предприятий, в которых важную роль играет быстрое распознавание документов», – комментирует Дмитрий Шушкин, генеральный директор ABBYY Россия.

Инструментарий ABBYY FineReader Engine 12 содержит готовые примеры кода, которые помогут ускорить разработку приложений. С их помощью можно решить наиболее распространенные задачи по интеллектуальной обработке документов.

ABBYY FineReader Engine поддерживает 208 языков распознавания, в том числе в новой версии добавлены фарси и бирманский. Также технология позволяет распознавать документы, которые содержат сразу несколько языков. Это расширяет возможности компаний при выводе решений на международный рынок.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Apple учит гуманоидов с Vision Pro: человек показывает — робот делает

Исследователи из Apple совместно с MIT, Carnegie Mellon, Университетом Вашингтона и UC San Diego придумали интересный способ обучать гуманоидных роботов: надеваем Vision Pro, записываем действия человека — и робот учится повторять.

Да, это примерно как «смотри, как я делаю, и делай так же».

Команда собрала более 25 000 человеческих и 1 500 роботизированных демонстраций — получился датасет PH2D. На его основе они обучили единую модель, способную управлять настоящим гуманоидом в реальном мире.

Смысл в том, чтобы использовать видео от первого лица: человек взаимодействует с предметами — открывает ящики, переставляет вещи, нажимает кнопки. А робот потом учится делать то же самое, не нуждаясь в дорогом ручном управлении.

Для съёмки использовали приложение для Apple Vision Pro, которое задействует камеру в нижней части устройства и ARKit для отслеживания 3D-движений головы и рук.

Чтобы сделать всё подешевле, учёные придумали простое 3D-печатное крепление для камеры ZED Mini Stereo, чтобы использовать её с гарнитурами вроде Meta (корпорация Meta признана экстремисткой и запрещена в России) Quest 3. Получилось почти то же самое — но дешевле и доступнее.

 

Замедлить, чтобы успеть

Поскольку человек двигается намного быстрее, чем робот, все человеческие демонстрации замедлили в 4 раза. Так роботу проще учиться без дополнительных переделок.

Human Action Transformer (HAT)

Главная звезда исследования — модель HAT (Human Action Transformer). Её особенность в том, что она обучается на данных от людей и роботов одновременно и не делит их по источникам. В результате получается универсальная политика, которая работает на любых «телах» — человеческих или механических.

И это даёт результат: в тестах роботы, обученные по такой схеме, справлялись даже с незнакомыми задачами — лучше, чем при обычном подходе.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru