Сергей Мартынов. Так у вас большие данные или маленький компьютер?

2016-12-20 10:50

Товарищи учёные, доценты с кандидатами уже не первый год совещаются в поте лица, сочиняют определение термина «Big Data», чтобы потом увековечить его в очередном эпохальном ФЗ. А тем временем я расскажу вам, что это такое.

Многие думают, что Big Data — это когда много данных. А что такое много? Гига-, тера-, пента-? Неспособность вашего компьютера обработать ваши данные («многа буковок ниасилил») не делает ваши данные Big Data. Скорее всего, у вас не большие данные, а маленький компьютер.

Главное отличительное свойство Big Data, о котором я сейчас скажу, приведет немало почтеннейшей публики в состояние разрыва шаблона. Оно, это свойство, заключается в том, что, работая с большими данными, вы никогда не получите точный ответ на свой запрос. Как же так? Мы привыкли, что если уж компьютер посчитал — это точно.

Существуют ряд причин, по которым получаемая вами из Big Data информация будет всегда приблизительной, с большей или меньшей степенью ошибки.

Если вы пишете запрос к обычной базе данных найти всех людей по фамилии Иванов, вы уверены, что полученный список будет включать всех существующих Ивановых. В случае с Big Data это не так.

В любой момент времени точное количество Ивановых неизвестно. Часть из них умерла, но информация об этом ещё не занесена в базу данных, а часть – родилась, но тоже ещё не зарегистрированы, потому что в Петропавловске-Камчатском — полночь. У некоторых Ивановых фамилия занесена в базу данных с ошибкой, например – Ивонов, Ивнов и т.д., и они не будут найдены. Часть базы данных, находящаяся в на Дальнем востоке, подверглась кибератаке и не ответила на запрос, поэтому все находящиеся в этом сегменте Ивановы тоже не были найдены. Так как с большими данными работают сотни приложений, сочинённых не совсем пряморукими кодерами, всегда часть из этих приложений глючит (как наш с вами любимый ЛинкедИн), и в любой конкретный момент времени что-нибудь, да не работает.

То есть, работая с Big Data, вы всегда получаете не точный, а более-менее правильный ответ – с некоторой степенью ошибки. Как в известном анекдоте: «Сколько будет 2х2? — Ну, в основном четыре, редко – пять, а совсем редко – даже 8 бывает». Раньше это был анекдот. А теперь это — нормальный результат работы с Big Data.

Поэтому одна из самых важных проблем, которую приходится решать при работе с большими данными — как при неточных, содержащих ошибки, искажения и тому подобные прелести исходных данных, получить результат с необходимой (приемлемой) точностью. А если вы всё же нашли способ получать в любой момент времени совершенно точный результат при работе с данными — извиняюсь, у вас уже не Big Data, сколько бы тера и пентабайт данных там не было.

Собственно, для получения достаточно точных результатов при некачественных исходных данных существуют всего два метода. Но об этом в другой раз.

Источник: mihico.ru

Сергей Мартынов. Так у вас большие данные или маленький компьютер?

Комментарии: