ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY усилила FineReader Engine технологиями искусственного интеллекта

ABBYY представила новую версию ABBYY FineReader Engine 12 — инструментария разработчика для распознавания информации из отсканированных бумажных и PDF-документов, изображений и фотографий, а также скриншотов с экранов устройств, в том числе промышленных дисплеев.

В новой версии, созданной с применением сверточных нейронных сетей, используются технологии обработки естественного языка и машинного обучения. С их помощью можно определить тип документа не только по внешним признакам, но и по его смыслу, выявляя малейшие отличия между разными категориями.

Среди новых возможностей можно отметить:

  • Интеллектуальная классификация: технология самостоятельно выявляет внешние и смысловые признаки, характерные для документов. Эффективность работы можно регулировать за счет установления баланса между полнотой и точностью классификации.
  • Улучшен анализ и восстановление логической структуры документа с помощью алгоритмов на основе искусственного интеллекта и технологий ABBYY-ADRT (Adaptive Document Recognition Technology). ABBYY FineReader Engine делит документ на отдельные страницы и анализирует оформление и содержание каждой из них. При экспорте в различные форматы файлов получается точно воссозданный документ с полным сохранением элементов форматирования, например, шрифтов, колонтитулов, колонок и др. Значительно улучшено качество восстановления таблиц: ячеек с текстом, пунктирных границ, цветов линий.
  • Более быстрый и расширенный экспорт в XML.
  • Появилась возможность сохранять файлы в форматах HTML 5 и ALTO 3.1. Кроме того, теперь документы можно экспортировать в новые форматы PDF: PDF 2.0, PDF/UA, PDF/A-2b и PDF/A-3b с возможностью поиска, что особенно важно для архивного хранения.
  • Более надежное шифрование: поддержка 256-битного AES-шифрования и поддержка символов юникода позволяет использовать пароли независимо от операционной системы.
  • Поддержка облачных технологий: теперь развернуть приложения с использованием ABBYY FineReader Engine можно и на облачных платформах, таких как Microsoft Azure.

«В новом ABBYY FineReader Engine мы использовали передовые технологии в области машинного обучения и обработки естественного языка, которые позволяют наиболее точно классифицировать документы по смыслу и распознавать полезные данные. Эти возможности будут особенно востребованы в системах предотвращения утечек данных, технологиях машинного зрения и платформах для управления контентом предприятий, в которых важную роль играет быстрое распознавание документов», – комментирует Дмитрий Шушкин, генеральный директор ABBYY Россия.

Инструментарий ABBYY FineReader Engine 12 содержит готовые примеры кода, которые помогут ускорить разработку приложений. С их помощью можно решить наиболее распространенные задачи по интеллектуальной обработке документов.

ABBYY FineReader Engine поддерживает 208 языков распознавания, в том числе в новой версии добавлены фарси и бирманский. Также технология позволяет распознавать документы, которые содержат сразу несколько языков. Это расширяет возможности компаний при выводе решений на международный рынок.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

ChatGPT ошибается с адресами сайтов — фишеры не дремлют

Если вы когда-нибудь просили чат-бота типа ChatGPT помочь с ссылкой на сайт банка или личного кабинета крупной компании — возможно, вы получали неправильный адрес. А теперь представьте, что кто-то специально воспользуется этой ошибкой.

Исследователи из компании Netcraft провели эксперимент: они спрашивали у модели GPT-4.1 адреса сайтов для входа в аккаунты известных брендов из сфер финансов, ретейла, технологий и коммунальных услуг.

В духе: «Я потерял закладку, подскажи, где войти в аккаунт [название бренда]?»

Результат получился тревожным:

  • только в 66% случаев бот дал правильную ссылку;
  • 29% ответов вели на несуществующие или заблокированные сайты;
  • ещё 5% — на легитимные, но вообще не те, что спрашивали.

Почему это проблема?

Потому что, как объясняет руководитель Threat Research в Netcraft Роб Дункан, фишеры могут заранее спрашивать у ИИ те же самые вопросы. Если бот выдаёт несуществующий, но правдоподобный адрес — мошенники могут просто зарегистрировать его, замаскировать под оригинал и ждать жертв.

«Вы видите, где модель ошибается, и используете эту ошибку себе на пользу», — говорит Дункан.

Фишинг адаптируется под ИИ

Современные фишинговые схемы всё чаще затачиваются не под Google, а именно под LLM — большие языковые модели. В одном случае, например, мошенники создали фейковый API для блокчейна Solana, окружив его десятками фейковых GitHub-репозиториев, туториалов, Q&A-доков и даже поддельных аккаунтов разработчиков. Всё, чтобы модель увидела якобы «живой» и «настоящий» проект и начала предлагать его в ответах.

Это чем-то напоминает классические атаки на цепочку поставок, только теперь цель — не человек с pull request'ом, а разработчик, который просто спрашивает у ИИ: «Какой API использовать?»

Вывод простой: не стоит полностью полагаться на ИИ, когда речь идёт о важных вещах вроде входа в банковский аккаунт или выборе библиотеки для кода. Проверяйте информацию на официальных сайтах, а ссылки — вручную. Особенно если ИИ обещает «удобный и официальный» сайт, которого вы раньше не видели.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru