Мэтчинг геоданных: ИНИД поможет привести все адреса к единому виду

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2021-10-15 06:34

анализ больших данных

Рано или поздно перед человеком, работающим с данными, будь то дата-журналист, дата-сайентист дата-инженер или аналитик, встаёт проблема разнородности названий и адресов географических единиц.

Проблемы нарастают как снежный ком: от разного написания регионов (вспомните хотя бы огромное количество вариантов, связанных с Якутией) до ошибок в написании улиц в городах и сёлах. Всё это мешает нормальному мэтчингу наблюдений по адресам в разных датасетах — неважно, официальные ли это данные от Росстата или датасет, собранный специально под визуализацию в сервисах вроде Tableau, самостоятельно искать совпадения и приводить их к единому виду — очень утомительное занятие.

С целью упростить, насколько это возможно, мэтчинг и привязку геоданных к административным сервисам ИНИД публикует специальную python-библиотеку и датасет со стандартизированными названиями адресов.

С сегодняшнего дня в каталоге ИНИД доступен первый классификатор — датасет о географических данных, на который вы можете опираться при сопоставлении записей из других наборов. Датасет представлен в виде csv-таблицы в кодировке UTF-8 и с разделителем в виде «;».

Всего в наборе содержится более 25 миллионов адресов, собранных из данных Федеральной информационной адресной системы (ФИАС) и Почты России. Адрес в наборе представлен в отдельных атрибутах: регион, муниципальный округ, населённый пункт, улица и её тип (например, «улица», «проспект», «переулок» и пр.), дом. Также в отдельном атрибуте указан источник данных — ФИАС или Почта России. Общая точность при сверке адресов с детализацией до дома составила 0,973 пункта. Скачать датасет «Адресный классификатор: ФИАС + Почта России» вы можете в каталоге ИНИД — www.data-in.ru/data-catalog/datasets/179

Источник: data-in.ru



		Мэтчинг геоданных: ИНИД поможет привести все адреса к единому виду
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2021-10-15 06:34 анализ больших данных Рано или поздно перед человеком, работающим с данными, будь то дата-журналист, дата-сайентист дата-инженер или аналитик, встаёт проблема разнородности названий и адресов географических единиц. Проблемы нарастают как снежный ком: от разного написания регионов (вспомните хотя бы огромное количество вариантов, связанных с Якутией) до ошибок в написании улиц в городах и сёлах. Всё это мешает нормальному мэтчингу наблюдений по адресам в разных датасетах — неважно, официальные ли это данные от Росстата или датасет, собранный специально под визуализацию в сервисах вроде Tableau, самостоятельно искать совпадения и приводить их к единому виду — очень утомительное занятие. С целью упростить, насколько это возможно, мэтчинг и привязку геоданных к административным сервисам ИНИД публикует специальную python-библиотеку и датасет со стандартизированными названиями адресов. С сегодняшнего дня в каталоге ИНИД доступен первый классификатор — датасет о географических данных, на который вы можете опираться при сопоставлении записей из других наборов. Датасет представлен в виде csv-таблицы в кодировке UTF-8 и с разделителем в виде «;». Всего в наборе содержится более 25 миллионов адресов, собранных из данных Федеральной информационной адресной системы (ФИАС) и Почты России. Адрес в наборе представлен в отдельных атрибутах: регион, муниципальный округ, населённый пункт, улица и её тип (например, «улица», «проспект», «переулок» и пр.), дом. Также в отдельном атрибуте указан источник данных — ФИАС или Почта России. Общая точность при сверке адресов с детализацией до дома составила 0,973 пункта. Скачать датасет «Адресный классификатор: ФИАС + Почта России» вы можете в каталоге ИНИД — www.data-in.ru/data-catalog/datasets/179 Источник: data-in.ru Комментарии:

Мэтчинг геоданных: ИНИД поможет привести все адреса к единому виду

Комментарии: