
Государство — крупнейший оператор самых различных данных. Они могли бы пригодиться всей стране, в том числе для обучения искусственного интеллекта. Что уже сделано в России для того, чтобы их можно было полноценно использовать для нужд всей экономики? Что ещё предстоит сделать? Разберём проблемы и решения.
- Введение
- Как решались проблемы доступа к государственным данным в России
- Какие государственные данные востребованы у бизнеса и граждан
- Конфиденциальность государственных данных: вызовы и методы защиты
- Как разный уровень цифровизации мешает доступу к государственным данным
- Выводы
Введение
Государство в любой стране — крупнейший оператор данных самых разных типов. Доступ к ним, как отметила директор по стратегическим проектам «Ассоциации больших данных» (АБД) Ирина Левова, открывая секцию «Доступ к государственным данным — новые возможности» на конференции First Russian Data Forum (рис. 1), даёт много новых возможностей — прежде всего позволяет снижать издержки и создавать новые продукты. Более того, в нынешних условиях всеобщей цифровизации доступ к государственным данным является необходимостью, в том числе и для самих госорганов.
Рисунок 1. Участники секции «Доступ к государственным данным — новые возможности»
Однако получить доступ к государственным данным не всегда просто, а раньше было просто невозможно. Именно это, по словам экспертов, является одной из главных сложностей при получении разнообразных датасетов, используемых для обучения искусственного интеллекта. Так что не случайно, что тема организации доступа к госданным обсуждается на конференции Data Fusion и проходящем в её рамках First Russian Data Forum с момента их основания.
Как решались проблемы доступа к государственным данным в России
За последние 6 лет удалось добиться многого. Возможно, потому что решением проблемы доступа к госданным пришлось заниматься даже на высочайшем государственном уровне. Так, президент Владимир Путин, выступая на конференции «Путешествие в мир искусственного интеллекта» (AI Journey) в ноябре 2022 года, поручил «выстроить механизм, чтобы разработчики получили именно такие данные и в таком объеме, какой им необходим для создания решений по машинному обучению».
Главным препятствием долгое время считались серьёзные ограничения на оборот обезличенных персональных данных. С выходом федерального закона от 08.08.2024 № 233-ФЗ были устранены многие ограничения, однако он по-настоящему заработает только с появлением федеральной информационной системы, к которой только формируются требования. Регламент обезличивания данных был утверждён всего несколько недель назад.
Тем не менее благодаря использованию экспериментальных правовых режимов удалось добиться немалого. Также вскрылись проблемы, значимость которых раньше недооценивалась.
Как отметил в своём выступлении заместитель председателя комитета по информационной политике, информационным технологиям и связи Госдумы Антон Горелкин (рис. 2), уже в среднесрочной перспективе использование данных, накопленных госорганами, сделает вполне реальным предположение министра цифрового развития, связи и массовых коммуникаций Максута Шадаева о том, что искусственный интеллект позволит заменить половину чиновников. Такое предположение министр сделал в ходе выступления на пленарной сессии в тот же день.
Парламентарий оценил количество цифровых профилей российских граждан, которые уже удалось собрать, как минимум в 80 млн. Это, по его мнению, является очень хорошим показателем. В целом он назвал цифровой профиль хорошим и удобным сервисом, который намного упрощает взаимодействие граждан и государства. Именно цифровой профиль, как заявил Антон Горелкин, может стать инструментом управления согласиями на обработку персональных данных, что является насущной задачей. К слову, на First Russian Data Forum тема управления согласиями также обсуждалась.
Рисунок 2. Депутат Госдумы Антон Горелкин (в центре)
Ирина Левова (рис. 3) среди эффектов от взаимодействия бизнеса с государством по обмену данными назвала подавление мошенничества, улучшение качества данных, ускорение процедур, снижение нагрузки на информационные системы.
Рисунок 3. Директор по стратегическим проектам АБД Ирина Левова
Среди ведомств чьи данные наиболее востребованы, Ирина Левова назвала МВД, Федеральную налоговую службу, Федеральную таможенную службу, Росреестр, Минцифры.
Какие государственные данные востребованы у бизнеса и граждан
Бизнес и граждан интересуют данные об объектах недвижимости, транспортных средствах, о наличии судимостей, данные исполнительных листов. Как напомнила Ирина Левова, в ряде случаев бизнес обязан использовать государственные данные — например, для сверки паспортных данных или установления прав собственности.
Начальник центра развития процесса онбординга (адаптации — прим. ред.) корпоративных клиентов «Газпромбанка» Анна Свиридова (рис. 4) поделилась опытом участия в проектах по доступу к госданным. По ее оценке, наиболее востребованы данные об учредителях и бенефициарах различных компаний, а также сами учредительные документы и сведения об индивидуальных предпринимателях.
Все это упрощает и ускоряет многие процедуры в рамках сделок или связанные с проверкой контрагентов и позволяет предотвратить многие схемы злоупотреблений и мошенничеств. Как особо подчеркнула Анна Свиридова, наиболее активно запрашивают госданные клиенты среднего и старшего возраста.
Рисунок 4. Начальник центра по онбордингу клиентов «Газпромбанка» Анна Свиридова
Директор «Авито Недвижимости» по отношениям с госорганами Артём Айрапетян (рис. 5) назвал именно государство основным источником наиболее полных и качественных данных об объектах недвижимости. Их применение упрощает подтверждение прав собственности на объекты и позволяет заполнять данные о них в объявлениях о продаже или аренде.
Тем самым, подчеркнул представитель популярного сервиса объявлений, соответствующие процедуры ускоряются и упрощаются. В результате выигрывают все участники процесса, как сам классифайд, так и пользователи.
Рисунок 5. GR-директор «Авито Недвижимости» Артём Айрапетян
Конфиденциальность государственных данных: вызовы и методы защиты
Антон Горелкин назвал главной задачей добиться того, чтобы отзыв согласия приводил к гарантированному уничтожению собранных данных. Без таких гарантий, как подчеркнул депутат, невозможно добиться доверия от граждан, и государство должно взять на себя эту функцию — не ограничиваться лишь хранением и передачей данных. Антон Горелкин не исключил, что данное требование будет закреплено на законодательном уровне и пообещал сделать все возможное, чтобы на стадии проекта оно прошло самое широкое обсуждение.
Замглавы Роскомнадзора Милош Вагнер на пресс-конференции «Утечки данных как социально-экономическая проблема», назвал массовым нарушение требований законодательства о защите персональных данных удалять или архивировать данные после завершения целей обработки. Это, по его оценке, приводит к росту числа инцидентов, связанных с утечками данных. Ирина Левова, однако, заявила, что для крупного бизнеса, в частности участников «Ассоциации больших данных», требования по защите персональных данных клиентов являются приоритетом.
Заместитель руководителя департамента информационных технологий правительства Москвы Владислав Шишмарёв (рис. 6) назвал не менее важной задачей обеспечить безопасность данных при их передаче. Сделать это, по его мнению, можно с помощью широкого использования средств криптозащиты информации, а также технологий конфиденциальных вычислений, когда пользователь получает готовые выборки, сформированные на основе данных, без доступа к самим данным. Это позволит обеспечить конфиденциальность даже необезличенных данных.
Представитель ДИТ Москвы назвал также серьезной проблемой состыковку государственных и бизнес-данных. Поэтому, как подчеркнул Владислав Шишмарёв, далеко не всегда успешны попытки использования государственных данных для обучения искусственного интеллекта. Основная причина сложностей — проблемы с валидацией данных.
Рисунок 6. Заместитель руководителя ДИТ Москвы Владислав Шишмарёв
Первый зампредседателя комитета Совета Федерации по конституционному законодательству и государственному строительству Артём Шейкин призвал к осторожному отношению к данным. По его словам, мошенничество является оборотной стороной цифровизации и датацентричного подхода.
Рисунок 7. Сенатор Артём Шейкин на конференции Data Fusion 2025
Как разный уровень цифровизации мешает доступу к государственным данным
Однако проблемы с доступом к государственным данным осложняет не только решение сложных задач, связанных с обеспечением конфиденциальности. Не меньшую роль играют устаревшее регулирование и недостаточный уровень цифровизации или цифровой культуры.
Так, в качестве серьезных вызовов Артём Шейкин назвал неравномерный уровень цифровизации в разных ведомствах и отсутствие единых стандартов. В качестве положительного примера устранения данных проблем он привел единую систему «Антифрод».
Директор по аналитике АНО «Цифровая экономика» Карен Казарьян (рис. 8) назвал главным источником проблем при реализации любых проектов, связанных с внедрением датацентричных подходов то, что нормативная база до сих пор заточена под бумажный документооборот. Это касается как государственного, так и коммерческого сектора, и такой подход нужно менять.
Однако, по оценке Карена Казарьяна, именно госорганы, точнее, определенная их часть, объективно не заинтересованы в цифровизации, и заставить их сменить подход может только внешнее стимулирование. Например, ужесточение сроков предоставления необходимых сведений для граждан и бизнеса.
К тому же, как подчеркнул Карен Казарьян, бизнесу важны не сами данные, а конечная информация — часто в формате «да» или «нет», например, является паспорт действительным, принадлежит тот или иной дом, участок или автомобиль данному лицу, привлекался ли данный человек к уголовной ответственности. Для их подготовки даже при базовом уровне цифровизации достаточно одного дня.
Рисунок 8. Директор по аналитике АНО «Цифровая экономика» Карен Казарьян
В ходе конференции целый ряд участников в разных дискуссиях и сессиях обращали внимание на опыт Китая, где активно работают биржи данных. В частности, это предложила президент «Ассоциации больших данных» Анна Серебряникова. Однако министр цифрового развития, связи и массовых коммуникаций Максут Шадаев оценил данную инициативу довольно сдержанно. Он заявил, что у ведомства нет таких планов, и централизация данных создает больше рисков, чем решает.
К тому же опыт Китая довольно неоднозначен. Создать успешную биржу данных там удалось лишь с третьей попытки, и в общей сложности на это ушло почти 8 лет и значительные материальные ресурсы. Плюс ко всему, в России и так уже предпринимаются попытки создать биржи данных, как универсальные, так и отраслевые, но они не слишком успешны.
Выводы
Государство является владельцем больших массивов разнообразных данных, причем часто именно они являются наиболее полными и качественными. Раньше их использование сдерживало устаревшее регулирование, но многие, хотя и не все, барьеры были сняты. Также расширилась сфера применения экспериментальных правовых режимов.
Основным вызовом в ходе проектов работы с госданными является обеспечение их конфиденциальности. Тут основными путями является использование средств маскирования, обезличивания, а также применение средств криптозащиты. Во многих случаях эффективной оказывается модель конфиденциальных вычислений, чему уже есть примеры.