От проверки контрагентов до предсказания преступлений: почему открытые данные приносят пользу и как это происходит в России |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-09-30 18:10 Дискуссия о данных за последние пару лет стала среди людей продвинутых предметом общих разговоров: большие и открытые данные, парсинг, датасеты — наверняка вы не раз слышали эти слова. За ними открываются перспективы совместной работы над внедрением технологий, доступ к государственной информации и получение пользы, которую можно оценить в $3 млрд. Сооснователь сервиса Rusprofile.ru Илья Мошин рассказывает, что такое open data, зачем государству делиться информацией и как она может помочь гражданам. Что такое открытые данные Впервые термин open data появился в 1995 году в отчете американского научного центра о схожести сведений по состоянию окружающей среды и геофизических данных. Центр предложил международному научному сообществу свободно делиться информацией и анализировать ее сообща. Но подобная концепция далеко не новая: еще в середине XX века ее продвигал известный социолог Роберт Кинг Мертон. Он считал, что коллективизм, бескорыстие и универсальность единого научного знания позволят работать над технологиями быстрее и эффективнее. Сегодня открытые данные публикуются и регулируются на государственном уровне. В США, например, это FOIA — закон о свободе информации, позволяющий обнародовать данные исполнительных органов власти, а еще много меморандумов. Подробнее про политику страны в контексте открытых данных можно почитать здесь, в одном из ключевых меморандумов. В принципе, подобные законы и порталы с открытыми данными есть у всех развитых стран. Например, во Франции существует организация Open Data France — ее создали госслужащие, которые работают с открытыми данными на местном уровне. Руководит всем развитием французских данных SGMAP (Генеральный секретариат по модернизации государственного управления — «Хайтек»), основанный в 2012 году. Информация сегодня так важна, что существует даже специальная «полиция данных» — должность data chief officer, то есть главное должностное лицо по данным. Такой сотрудник регулирует, насколько хорошо государство справляется с публикацией данных и отчитывается по ним, следит за прозрачностью процесса. Кстати, о прозрачности: доступность информации — это ключ к «открытому государству», концепции, по которой управляют страной и контролируют все процессы граждане. Но это не единственная причина, по которой открытые данные так важны. Международный опыт Интересно, что собрать датасет можно практически о чем угодно. Например, на зарубежном Kaggle (площадке, которая объединяет дата-исследователей со всего мира) можно найти датасеты со статистикой по выдаче Шенгенских виз, рецептами коктейлей и даже сет с наименованием 3,5 тыс. пицц из популярных пиццерий. Такие данные — не просто набор бессмысленных таблиц. С их помощью можно делать любопытные исследования — например, написать несколько строк кода на Python и посчитать, какая страна выдала самое большое количество виз в 2018-м, а затем выяснить, гражданам каких стран визы выдавались охотнее всего. Или, скажем, обучить чат-бота озвучивать для вас ингредиенты и рецепты коктейлей. Это самый простой вариант работы с готовыми датасетами, доступный практически каждому, кто только начинает разбираться с open data. Обычно датасеты включают в себя ряд исторических данных, собранных за какой-то промежуток времени. Например, базы с открытыми данными по преступлениям помогают находить закономерности и даже раскрывать преступления, которых еще не было. Звучит как научная фантастика, но, к примеру, программа PredPol анализирует открытые данные полицейских участков в США и Англии. На выходе программа с точностью до 50 м? предсказывает, где и когда произойдет следующее преступление. Открытые данные о передвижении транспорта, пробках, авариях на дороге или ремонтах помогают как компаниям доставки, так и простым гражданам. Например, «Яндекс.Навигатор», которым пользуются миллионы водителей, прогнозирует самый быстрый маршрут на основе исторических данных поездок пользователей. Транспорт Лондона (TfL) благодаря базам открытых данных дает пассажирам быстрый и легкий доступ к расписанию маршрутов. По данным департамента, 600 приложений, которые используют более 42% жителей Лондона, «прикручены» к 80 датасетам с помощью объединенного API. Эксперты McKinsey считают, что глобальное использование открытых данных привело бы к генерации пользы, в финансовом эквиваленте равной $3 млрд. Но, хотя Россия и подписала в 2013 году на встрече стран из G8 Хартию об открытых данных, проблем с ними в нашей стране пока хватает. В том числе и потому, что России в G8 с 2014 года нет. Россия Открытые данные у нас регламентируются 112-ФЗ от 7 июня 2013 года. Он закрепляет обязательный факт размещения государственных данных и данных органов местного управления в интернете. За последние годы в сети действительно появилось много профильных государственных порталов: от общего data.gov.ru, где можно найти более 2 тыс. датасетов на разные темы, до узкопрофильных вроде сайтов Минкультуры или Минфина. В прошлом году международная некоммерческая организация World Wide Web Foundation опубликовала рейтинг «открытости» государств: каждой из 30 стран, которая реализует принцип открытых данных, были присвоены соответствующие баллы. Россия получила 51 балл из 100 и заняла 13-е место. Самыми закрытыми оказались регистрационные данные о компаниях и расходах правительства. И если с первым помогают проекты для проверки контрагентов («СПАРК Интерфакс», «Контур Фокус» и бесплатный Rusprofile.ru), то со вторым могут справиться только журналисты-расследователи. Счетная палата РФ разработала свой собственный внутренний рейтинг: так, в этом году самыми «открытыми» ведомствами стали МВД, Минкультуры, Минфин и Минэнерго. Рейтинг составлялся по трем критериям:
Несмотря на это, российские открытые данные не могут похвастаться валидностью и едиными стандартами. Большая часть из них публикуется в формате CSV, который почти всегда приходится «подчищать» перед дальнейшим разбором. Кроме того, некоторые источники до сих пор не имеют консолидированных наборов: если вам нужно получить данные по, скажем, госзакупкам в Сибири, придется работать с отдельным датасетом по этому региону. Анализ данных и их качество Несмотря на то, что системная работа с государственными данными в России идет уже достаточно давно, их качество все равно страдает от трех ключевых проблем, с которыми Rusprofile сталкивается каждый день:
Для проверки контрагентов в рамках Rusprofile мы работаем с множеством источников: базовую информацию (реквизиты, список учредителей, виды деятельности и другое) получаем из ФНС. Это самый лучший источник из тех, которые нам доступны: за пять лет, что мы работаем с ним, количество ошибок в базе заметно уменьшилось. Еще пользуемся сведениями Росстата, Федеральной службы судебных приставов, порталов по госзакупкам и проверкам, данными по арбитражным делам. «Родственные», то есть конкурирующие и похожие компании мы вычисляем с помощью машинного обучения. Для того, чтобы обрабатывать миллиарды строк разных таблиц, только для рабочей среды требуется пять серверов: два под базу данных, а еще по одному под отдачу контента, поиск и разбор данных. Самая ресурсоемкая операция — ежедневное обновление данных по всем источникам. Чтобы избежать перегрузки серверов и отказа обслуживания, мы проводим его по ночам, во временной промежуток с наименьшей активностью пользователей. Еще одна проблема, из-за которой нам приходится использовать несколько серверов и большой стек технологий — формальное отношение органов к открытым данным. Вот несколько кейсов. Всю первую половину 2018 года прокуратура вообще не выкладывала данные, ссылаясь на то, что сайт в разработке. ИНН, который должен служить универсальным идентификатором юридического лица или индивидуального предпринимателя, может отсутствовать, быть неуникальным или содержать ошибки. Федеральная служба судебных приставов регулярно допускает ошибки в адресах или указывает их не полностью, что, при условии отсутствия в данных ИНН или ОГРН, зачастую ведет к ошибочной привязке исполнительных производств. Все это делает нашу работу, как и работу других дата-исследователей, гораздо сложнее. Эксперты отмечают: основная проблема открытых данных в России заключается в том, что страна больше не стремится вернуться в состав ОЭСР или G8, а значит, де юре или де факто не связана никакими международными обязательствами. В ситуации отсутствия политической конкуренции внутри страны оказывается, что внутренних обязательств для развития концепции открытых данных тоже нет, поэтому сегодня тема open data в России почти полностью исчезла из публичной повестки, и госорганы не особенно стремятся трудиться над качеством данных. Популяризацией темы открытых данных в России в основном занимается или бизнес, или некоммерческие организации. Одна из них — известная в комьюнити аналитиков «Информационная культура». Миссия таких проектов — развитие концепции открытого и понятного государства, полный и бесплатный доступ к госданным и комфортная среда для разработчиков. Источник: hightech.fm Комментарии: |
|