Мэтчинг геоданных: ИНИД поможет привести все адреса к единому виду

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Рано или поздно перед человеком, работающим с данными, будь то дата-журналист, дата-сайентист дата-инженер или аналитик, встаёт проблема разнородности названий и адресов географических единиц.

Проблемы нарастают как снежный ком: от разного написания регионов (вспомните хотя бы огромное количество вариантов, связанных с Якутией) до ошибок в написании улиц в городах и сёлах. Всё это мешает нормальному мэтчингу наблюдений по адресам в разных датасетах — неважно, официальные ли это данные от Росстата или датасет, собранный специально под визуализацию в сервисах вроде Tableau, самостоятельно искать совпадения и приводить их к единому виду — очень утомительное занятие.

С целью упростить, насколько это возможно, мэтчинг и привязку геоданных к административным сервисам ИНИД публикует специальную python-библиотеку и датасет со стандартизированными названиями адресов.

С сегодняшнего дня в каталоге ИНИД доступен первый классификатор — датасет о географических данных, на который вы можете опираться при сопоставлении записей из других наборов. Датасет представлен в виде csv-таблицы в кодировке UTF-8 и с разделителем в виде «;».

Всего в наборе содержится более 25 миллионов адресов, собранных из данных Федеральной информационной адресной системы (ФИАС) и Почты России. Адрес в наборе представлен в отдельных атрибутах: регион, муниципальный округ, населённый пункт, улица и её тип (например, «улица», «проспект», «переулок» и пр.), дом. Также в отдельном атрибуте указан источник данных — ФИАС или Почта России. Общая точность при сверке адресов с детализацией до дома составила 0,973 пункта. Скачать датасет «Адресный классификатор: ФИАС + Почта России» вы можете в каталоге ИНИД — www.data-in.ru/data-catalog/datasets/179


Источник: data-in.ru

Комментарии: