ФБР планирует увеличить базу распознавания лиц до 52 млн изображений

ФБР планирует увеличить базу распознавания лиц до 52 млн изображений

Фонд электронных рубежей опубликовал новые документы о биометрической базе данных Next Generation Identification (NGI), которая разрабатывается по заказу ФБР и должна начать работу летом 2014 года. Документы получены в ходе судебного процесса против ФБР по поводу засекречивания информации об этом проекте.



В соответствии с документами, базу NGI уже в следующем году планируют расширить до 52 млн индивидуальных записей. В перспективе она может содержать биометрические данные на треть населения США. ФБР намерено получить часть информации из «гражданских источников», то есть для распознавания лиц людей, которые, возможно, никогда не совершали преступлений.

Фонд электронных рубежей предупреждает, что автоматическое распознавание лиц в таком масштабе представляет реальную угрозу для неприкосновенности частной жизни всех американцев, пишет habrahabr.ru

NGI создаётся на основе имеющейся базы с отпечатками пальцев 100 млн человек. Система следующего поколения использует для биометрической идентификации не только отпечатки, но и результаты сканирования радужной оболочки глаза, распознавание лиц и прочие методы. В ФБР биометрическая информация привязана к личному досье гражданина с указанием имени, домашнего адреса, номера водительского удостоверения, иммиграционного статуса, возраста, этнической принадлежности и т.д. Доступ к базе имеют другие федеральные агентства, а также около 18 000 региональных подразделений правоохранительных органов.

Документы показывают, что в 2012 году в NGI хранилось 13,6 млн изображений для автоматического распознавания лиц от 7 до 8 млн человек, в середине 2013 года размер БД вырос до 16 млн изображений, а новые документы показывают, что NGI способна добавлять до 55 000 новых изображений в день и обрабатывать десятки тысяч поисковых запросов в сутки.

По плану ФБР, в следующем году база для распознавания лиц может вырасти до 52 млн фотографий, из которых 46 млн «криминальных изображений», 4,3 млн «гражданских изображений» и около 1 млн изображений из неназываемых источников, в том числе из «новых репозиториев».

Сбор фотографий граждан уже начался: во многих организациях, которые требуют специального допуска, у людей берут не только отпечаток пальца, но и фотографируют. Информацию отправляют в ФБР.

«Раньше ФБР никогда не связывало криминальную и гражданскую базы данных отпечатков пальцев. Таким образом, любой поисковый запрос по первой БД не поступал во вторую, — пишет Фонд электронных рубежей. — С внедрением NGI всё изменится. Теперь каждой записи, уголовной или нет, будет присвоен универсальный контрольный номер (UCN), и каждый запрос будет запущен для всех записей в базе». Это означает, что даже гражданина без криминальной истории могут случайно распознать в качестве подозреваемого по любому уголовному делу. Независимые исследования показывают, что вероятность ложных срабатываний существенно возрастает при увеличении размера выборки, а с 52 млн фотографий выборка будет очень большой. 

Подрядчиком по внедрению NGI является компания MorphoTrust (бывшая L-1 Identity Solutions), которая разработала и поддерживает работу крупнейшей в мире системы распознавания лиц Госдепартамента США. Она содержит фотографии более 244 млн граждан преимущественно иностранных государств, которые когда-либо подавали заявления на американскую визу или паспорт.

Нейросеть для ЖКХ научилась материться в первый месяц обучения

Разработчикам отечественного голосового помощника для сферы ЖКХ пришлось «переучивать» систему после того, как в процессе обучения бот освоил ненормативную лексику. Этот случай наглядно показал, насколько критично качество данных, на которых обучаются нейросети.

О возникшей проблеме рассказал ТАСС президент Национального объединения организаций в сфере технологий информационного моделирования (НОТИМ) Михаил Викторов на Сибирском строительном форуме, который проходит в Новосибирске.

«Приведу забавный случай: нейросеть учится, и буквально уже в первый месяц разработчики обнаружили такую коллизию — нейросеть научилась мату. Как говорится, с кем поведёшься, от того и наберёшься. Эту проблему, конечно, пришлось устранять. Но это в том числе показатель активного взаимодействия с нашими гражданами», — рассказал Михаил Викторов.

При этом, по его словам, внедрение ботов позволило сократить число операторов кол-центров в 5–6 раз без потери качества обслуживания. Нейросетевые инструменты способны обрабатывать до 90% входящих обращений.

Уровень удовлетворённости качеством обслуживания, по оценке Викторова, составляет около 80%. Передавать звонки операторам целесообразно лишь в экстренных случаях — например, при аварийных ситуациях.

Эксперты ранее отмечали, что именно данные, на которых обучается ИИ, являются ключевой причиной появления некорректных или предвзятых ответов нейросетевых инструментов.

RSS: Новости на портале Anti-Malware.ru