В Solar Dozor 6.0 в 5 раз увеличена скорость распознавания изображений

В Solar Dozor 6.0 в 5 раз увеличена скорость распознавания изображений

В Solar Dozor 6.0 в 5 раз увеличена скорость распознавания изображений

Компания Solar Security сообщает о существенном развитии модуля Solar Dozor OCR, разработанного на основе технологий распознавания текстов компании ABBYY. Данный модуль позволяет в рамках DLP-системы Solar Dozor контролировать поток конфиденциальных данных и предотвращать их утечку за счет распознавания текстовой информации в различных изображениях.

Количество передаваемой информации как вовне, так и внутри организаций постоянно растет, тем самым повышается риск утечки конфиденциальной информации. Solar Dozor OCR позволяет распознавать графические образы текста в файлах изображений, которые сотрудники могут передавать по сетевым каналам, отправлять на печать, копировать на внешние носители или сохранять на сетевых хранилищах. Применение данного модуля в рамках DLP-системы помогает организациям защитить конфиденциальные данные от утечки, даже если они были конвертированы в графику – распечатаны и отсканированы, сфотографированы, сохранены в PDF, сняты с экрана в виде скриншотов и т.д.

Увеличение потока передаваемой информации приводит к росту нагрузки на оборудование и, как следствие, к вынужденному расширению инфраструктуры на стороне заказчика. Поэтому сотрудниками Solar Security и ABBYY было принято решение о развитии модуля OCR в рамках DLP-системы Solar Dozor. Скорость распознавания модуля была увеличена в 5 раз по сравнению с его базовыми показателями, что позволяет обрабатывать изображения в информационном потоке объемом более 700 Гб в сутки, не замедляя при этом работу DLP-системы. Увеличения скорости удалось добиться за счет предварительной обработки изображений: модуль осуществляет коррекцию перекосов строк и их искажений, определяет верх и низ документа и изначально отраженный текст, а также позволяет распознавать многоколоночный текст.

Галина Рябова, руководитель направления SolarDozor компании SolarSecurity, прокомментировала эту новость: «Мы отмечаем, что доля сканов в трафике наших клиентов неуклонно растет. Это приводит к многократному росту нагрузки на OCR-модуль и заметным задержкам в обработке данных, особенно в крупных компаниях. Конечно, решить эту проблему можно, наращивая вычислительные мощности на стороне заказчика, но это требует увеличения стоимости оборудования. Для нас было важно решить эту задачу технологически без дополнительных затрат на инфраструктуру».

Высокая скорость и точность распознавания данных в текстах и изображениях обеспечивает новый уровень защиты конфиденциальной информации и значительно снижает риск ее утечки.

Дмитрий Шушкин, заместитель генерального директора ABBYYРоссия, подчеркнул: «Сегодня многие компании заботятся о сокращении рисков утечки конфиденциальной информации. Это связанно с тем, что данных и способов их передачи с каждым днем становится все больше, а значит и риски растут. Совместно с SolarSecurityнам удалось доработать модуль DLP-системы таким образом, что заказчикам не требуется перестраивать свои информационные системы. При этом скорость и точность обработки вышли на качественно новый уровень».

ИИ учится задавать вопросы сам себе — и от этого становится умнее

Даже самые продвинутые ИИ-модели пока что во многом лишь повторяют — учатся на примерах человеческой работы или решают задачи, которые им заранее придумали люди. Но что если искусственный интеллект сможет учиться почти как человек — сам задавать себе интересные вопросы и искать на них ответы?

Похоже, это уже не фантазия. Исследователи из Университета Цинхуа, Пекинского института общего искусственного интеллекта (BIGAI) и Университета штата Пенсильвания показали, что ИИ способен осваивать рассуждение и программирование через своеобразную «игру с самим собой».

Проект получил название Absolute Zero Reasoner (AZR). Его идея проста и изящна одновременно. Сначала языковая модель сама придумывает задачи по программированию на Python — достаточно сложные, но решаемые. Затем она же пытается их решить, после чего проверяет себя самым честным способом: запускает код.

 

Если решение сработало — отлично. Если нет — ошибка становится сигналом для обучения. На основе успехов и провалов система дообучает исходную модель, постепенно улучшая и умение формулировать задачи, и способность их решать.

Исследователи протестировали подход на открытой языковой модели Qwen с 7 и 14 миллиардами параметров. Оказалось, что такой «самообучающийся» ИИ заметно улучшает навыки программирования и логического мышления — и в некоторых тестах даже обгоняет модели, обученные на вручную отобранных человеческих данных.

 

По словам аспиранта Университета Цинхуа Эндрю Чжао, одного из авторов идеи, подход напоминает реальный процесс обучения человека:

«Сначала ты копируешь родителей и учителей, но потом начинаешь задавать собственные вопросы. И в какой-то момент можешь превзойти тех, кто тебя учил».

Идея «самоигры» для ИИ обсуждается не первый год — ещё раньше её развивали такие исследователи, как Юрген Шмидхубер и Пьер-Ив Удейер. Но в Absolute Zero особенно интересно то, как растёт сложность задач: чем умнее становится модель, тем более сложные вопросы она начинает ставить перед собой.

«Уровень сложности растёт вместе с возможностями модели», — отмечает исследователь BIGAI Цзилун Чжэн.

Сейчас подход работает только там, где результат можно легко проверить — в программировании и математике. Но в будущем его хотят применить и к более «жизненным» задачам: работе ИИ-агентов в браузере, офисных сценариях или автоматизации процессов. В таких случаях модель могла бы сама оценивать, правильно ли агент действует.

«В теории это может стать путём к суперинтеллекту», — признаёт Чжэн.

RSS: Новости на портале Anti-Malware.ru