Сергей Мартынов. Так у вас большие данные или маленький компьютер? |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2016-12-20 10:50 Товарищи учёные, доценты с кандидатами уже не первый год совещаются в поте лица, сочиняют определение термина «Big Data», чтобы потом увековечить его в очередном эпохальном ФЗ. А тем временем я расскажу вам, что это такое. Многие думают, что Big Data — это когда много данных. А что такое много? Гига-, тера-, пента-? Неспособность вашего компьютера обработать ваши данные («многа буковок ниасилил») не делает ваши данные Big Data. Скорее всего, у вас не большие данные, а маленький компьютер. Главное отличительное свойство Big Data, о котором я сейчас скажу, приведет немало почтеннейшей публики в состояние разрыва шаблона. Оно, это свойство, заключается в том, что, работая с большими данными, вы никогда не получите точный ответ на свой запрос. Как же так? Мы привыкли, что если уж компьютер посчитал — это точно. Существуют ряд причин, по которым получаемая вами из Big Data информация будет всегда приблизительной, с большей или меньшей степенью ошибки. Если вы пишете запрос к обычной базе данных найти всех людей по фамилии Иванов, вы уверены, что полученный список будет включать всех существующих Ивановых. В случае с Big Data это не так. В любой момент времени точное количество Ивановых неизвестно. Часть из них умерла, но информация об этом ещё не занесена в базу данных, а часть – родилась, но тоже ещё не зарегистрированы, потому что в Петропавловске-Камчатском — полночь. У некоторых Ивановых фамилия занесена в базу данных с ошибкой, например – Ивонов, Ивнов и т.д., и они не будут найдены. Часть базы данных, находящаяся в на Дальнем востоке, подверглась кибератаке и не ответила на запрос, поэтому все находящиеся в этом сегменте Ивановы тоже не были найдены. Так как с большими данными работают сотни приложений, сочинённых не совсем пряморукими кодерами, всегда часть из этих приложений глючит (как наш с вами любимый ЛинкедИн), и в любой конкретный момент времени что-нибудь, да не работает. То есть, работая с Big Data, вы всегда получаете не точный, а более-менее правильный ответ – с некоторой степенью ошибки. Как в известном анекдоте: «Сколько будет 2х2? — Ну, в основном четыре, редко – пять, а совсем редко – даже 8 бывает». Раньше это был анекдот. А теперь это — нормальный результат работы с Big Data. Поэтому одна из самых важных проблем, которую приходится решать при работе с большими данными — как при неточных, содержащих ошибки, искажения и тому подобные прелести исходных данных, получить результат с необходимой (приемлемой) точностью. А если вы всё же нашли способ получать в любой момент времени совершенно точный результат при работе с данными — извиняюсь, у вас уже не Big Data, сколько бы тера и пентабайт данных там не было. Собственно, для получения достаточно точных результатов при некачественных исходных данных существуют всего два метода. Но об этом в другой раз. Источник: mihico.ru Комментарии: |
|