Мэтчинг геоданных: ИНИД поможет привести все адреса к единому виду |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-10-15 06:34 Рано или поздно перед человеком, работающим с данными, будь то дата-журналист, дата-сайентист дата-инженер или аналитик, встаёт проблема разнородности названий и адресов географических единиц. Проблемы нарастают как снежный ком: от разного написания регионов (вспомните хотя бы огромное количество вариантов, связанных с Якутией) до ошибок в написании улиц в городах и сёлах. Всё это мешает нормальному мэтчингу наблюдений по адресам в разных датасетах — неважно, официальные ли это данные от Росстата или датасет, собранный специально под визуализацию в сервисах вроде Tableau, самостоятельно искать совпадения и приводить их к единому виду — очень утомительное занятие. С целью упростить, насколько это возможно, мэтчинг и привязку геоданных к административным сервисам ИНИД публикует специальную python-библиотеку и датасет со стандартизированными названиями адресов. С сегодняшнего дня в каталоге ИНИД доступен первый классификатор — датасет о географических данных, на который вы можете опираться при сопоставлении записей из других наборов. Датасет представлен в виде csv-таблицы в кодировке UTF-8 и с разделителем в виде «;». Всего в наборе содержится более 25 миллионов адресов, собранных из данных Федеральной информационной адресной системы (ФИАС) и Почты России. Адрес в наборе представлен в отдельных атрибутах: регион, муниципальный округ, населённый пункт, улица и её тип (например, «улица», «проспект», «переулок» и пр.), дом. Также в отдельном атрибуте указан источник данных — ФИАС или Почта России. Общая точность при сверке адресов с детализацией до дома составила 0,973 пункта. Скачать датасет «Адресный классификатор: ФИАС + Почта России» вы можете в каталоге ИНИД — www.data-in.ru/data-catalog/datasets/179 Источник: data-in.ru Комментарии: |
|