10 правил работы с Big Data | Data Science

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Как использовать большие данные в городских исследованиях и почему даже статистика ставит этические проблемы

Эра Big Data все еще начинается, этому направлению в анализе данных не больше 10 лет. Сами большие данные уже существуют достаточно давно, но только недавно появились полноценные исследовательские методики в этой области. В случае Москвы все еще впереди, особенно учитывая появление Большой Москвы, где применение Big Data может оказаться очень актуальным. Крупные американские города часто применяют большие данные для удобства управления, для того, чтобы уравновесить отношения между центром и периферией. Теперь большие данные приходят и в российские города. В этом году «Мегафон» предоставил Институту архитектуры, медиа и дизайна «Стрелка» свои данные для исследования Москвы. Это первый подобный опыт в России: до этого соизмеримым набором данных о городе не владел ни один учебно-исследовательский институт в нашей стране. 

Универсального инструментария работы с большими данными еще не придумано, но, несмотря на все сложности, такие данные дают бесценные знания для городских исследований. Большие данные можно использовать во многих городских проектах. Если мы говорим, например, про транспорт, то здесь можно исследовать паттерны парковки, способы перемещения между центром и периферией, находить более удобные механизмы сосуществования человека и транспорта, более элегантные повседневные решения. В Рио-де-Жанейро работает центр, отслеживающий информацию по основным транспортным магистралям: самые популярные маршруты, самые загруженные участки, продолжительность пробок по отдельным направлениям, – и на материале этих данных правительство планирует развитие дорожной сети. 

В строящемся сейчас корейском городе Cонгдо все, от образования и до канализационных систем, контролируется большими компьютерными центрами, которые собирают информацию и анализируют ее. Они заранее могут увидеть, что на каком-то участке может произойти сбой, и предотвратить его. Лондонские власти ведут постоянный мониторинг районов Лондона и совершающихся там преступлений. Из этих данных формируется открытая карта, на которой отражается количество убийств, пожаров, краж разного типа, благодаря которой полицейские понимают, какой район требует большего внимания, подключают туда больше людей, усиливают наблюдение.

Применение Big Data в городах – в каком-то смысле анонимный краудсорсинг: эти массивы данных отражают и визуализируют модели поведения и запросы населения. Вот 10 правил, помогающих современным городам применять большие данные и правильно с ними работать.

1. Анализ до постановки гипотезы

Когда у тебя на руках оказывается большой набор данных, нужно прежде всего их внимательно изучить и понять, что это за данные и к каким результатам они могут привести. Для традиционного исследования важно сначала поставить перед собой вопрос, а уже потом собирать данные, которые могут как подтвердить, так и не подтвердить исходную гипотезу. Большие данные исследователь получает уже готовыми, поэтому сначала важно проанализировать, какие данные у тебя на руках, иначе в процессе работы может оказаться, что эти данные никак не помогут ответить на первоначальные вопросы исследования.

2. Поможет любая визуализация

Для анализа данных в большинстве случаев полезно их визуализировать, а потом уже сделать выводы из этой визуализации. Например, для транспортных данных можно сделать картографию, и это поможет лучше понять, что происходит на разных участках города. Выводы из этого самого первичного анализа (в данном случае – визуализации) как раз укажут на основные проблемы, которые впоследствии с помощью этих данных можно будет решать. После этой первичной обработки можно будет думать над решением конкретных проблем, а не работать с большим и голым потоком.

3. Самое сложное – разобраться с алгоритмом

После визуализации нужно выработать алгоритм дальнейшей работы. Как правило, это задача программиста – написать алгоритм, через который эти данные можно будет просеивать. Алгоритм представляет собой одновременно инструмент и метод работы, то есть общую логику работы с данными. В идеале разбираться с алгоритмом должны программисты, если же их нет, можно и собственными силами. 

4. Выделяйте ключевые факторы

В больших данных бывает очень сложно определить их границы и их важность: информация о городе, например, на первый взгляд кажется очень однородной. В то же время в этой однородной информации хранятся специализированные ячейки, которые очень трудно отделить друг от друга. Это такая гигиеническая работа – практически очищать зерна от плевел и выделять главное. В идеале нужно понять, как различные факторы в этих данных связаны между собой, а это уже укажет на самые больные точки. 

5. Полезно анализировать данные в динамике

Big Data очень быстро устаревает, часто это сиюминутная информация, которая постоянно меняется. Неизвестно, насколько информация на руках исследователя совпадает с ситуацией на сегодняшний день, поэтому в идеале полезно провести анализ нескольких наборов больших данных. Если такой возможности нет, нужно хотя бы понимать эту особенность и анализировать данные более широко. 

При этом потенциал материала очень большой: в любой выборке видны тренды как настоящего, так и будущего. Эти данные могут устаревать, но общая тенденция будет сохраняться. Поэтому при сопоставлении матриц, пусть даже недельной давности, можно не только выделять проблемы прошлого, но также влиять на настоящее и даже прогнозировать будущее. И в этом заключается главный вызов больших данных. 

6. Постоянно держите в голове возможность ошибки

Работа с большими данными – большой ручной труд. Как бы все ни было автоматизировано и механизировано, всегда существует человеческий фактор. Никто не отменяет вероятность ошибки, а также стремления выдавать желаемое за действительное. Дигитализация общества сильно переоценена: та же работа с большими данными осуществляется прежде всего человеческими руками, а людям свойственно совершать ошибки. 

7. Ошибки могут быть и в самом наборе данных

Главная проблема больших данных связана с тем, что в наборе оказывается очень много случайных данных и информация часто дублируется. Информация может многократно повторяться, но из этого не следует обязательный вывод об общем паттерне. Фактор ошибки иногда может быть просто заложен в общие данные, и по этому поводу нужно выработать отдельное правило. Нужно постоянно держать в голове возможность ошибочности отдельных данных – по аналогии с краудсорсингом, где иногда запрос представляет собой случайный вброс или каприз отдельных людей, а не отражает их реальные идеи и потребности.

8. Помните о проблеме усреднения

Нужно стараться обнаруживать общие тренды не только сегодняшнего дня, но и потенциального будущего. Проблема усреднения связана с тем, что за работой со средними показателями трудно разглядеть весь потенциал данных. Можно не разглядеть самой очевидной проблемы, если она засорена общими и средними данными. 

9. Не забывайте об этике

Сама работа с Big Data ставит под вопрос границы юридических прав человека, но в одних направлениях работы с большими данными этические вопросы кажутся более проблемными, чем в других. Cамый нейтральный вариант использования Big Data – гуманитарные и городские исследования. Но и здесь возможны свои сложности: недавно в Лондоне случился скандал из-за того, что компания проанализировала на примере нескольких человек паттерны передвижения по городу. Хотя имена этих людей не разглашались, такой способ использования больших данных был признан неэтичным; то есть в работе с большими данными корректно смотреть на всю массу показателей, но не следует уходить в вопросы, касающиеся отдельных персоналий.

10. Поиск решений

В больших данных очень мало теоретического интереса: работа с ними предполагает практическое решение задач, которые можно даже изобретать в процессе исследования. Ставить проблемы и искать методы их решения можно с помощью анализа тех же самых данных – например, перемещая самые сложные показатели, попробовать их сбалансировать и понять, как эти данные могут сообщаться более эффективно. +

Материал подготовлен при участии Марины Анциперовой


Источник: datascientist.one

Комментарии: