Зачем компаниям хранить и обрабатывать большие данные? Как их используют государства?

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Зачем компаниям хранить и обрабатывать большие данные? Как их используют государства? Где в России изучают анализ больших данных как научное направление? Сегодня мы публикуем необычное интервью: на наши вопросы ответили сразу несколько сотрудников Центра компетенций НТИ по технологиям хранения и анализа больших данных на базе МГУ имени М.В. Ломоносова.

• Почему хранение и анализ больших данных буквально «взорвали» рынок в последние годы?

Сергей Тростьянский, заместитель директора Центра: «Объем накопленных миром данных в настоящий момент составляет приблизительно 40 зеттабайт, а к 2025 году вырастет в четыре раза. Собирать и хранить большие данные многие компании уже научились, но далеко не все из них способны извлечь из этих данных полезную для себя информацию.

Большие данные расширяют возможности людей при решении различных задач. Например, маркетолог из Amazon, наблюдая за следами пользователя в киберпространстве, может предложить клиенту товар, от которого будет сложно отказаться. Аналитик из Федеральной службы безопасности, анализируя данные о миллионах людей в киберпространстве, может обнаружить персон с аномальным поведением и предотвратить террористический акт.

По прогнозам исследовательского агентства TAdviser, использование больших данных может увеличить прибыль компаний на 5–25% в зависимости от сферы деятельности. Без анализа поведения своих пользователей, без возможности прогнозирования, руководствуясь только опытом и интуицией, уже крайне сложно оставаться конкурентоспособным».

• Как были выбраны основные научно-исследовательские направления работы Центра? Будет ли этот список расширяться с учетом того, что анализ больших данных применяется в самых разных областях, иногда неожиданных?

Академик Константин Рудаков, руководитель направления «Реализация ключевых комплексных научно-исследовательских и опытно-конструкторских проектов» Центра: «Направления были выбраны на основе предложений ученых, работающих в МГУ и сотрудничающих с ним. Сначала мы собрали все возможные предложения — получилось 44 проекта. Выяснилось, что часть из них нельзя качественно выполнить, но не потому, что направления плохие, а потому что никто не может реализовывать их в рамках имеющихся ресурсов. Главное — нужны люди, по крайней мере имеющие шанс получить результаты выше мирового уровня. После фильтрации и интеграции предложений осталось восемь проектов. Состав работ и далее будет модифицироваться и уточняться: поступают все новые и новые социальные заказы».

• Какое из направлений кажется вам самым перспективным и интересным?

Константин Рудаков: «У нас есть фундаментальный проект “Математические основы интеллектуального анализа больших данных”. Здесь могут быть достигнуты результаты мирового уровня. Математика у нас в стране сильная, поэтому математическое направление надо развивать и по возможности на его основе получать более качественные решения в сфере анализа данных».

• Большие данные не берутся из ниоткуда, и каждый день каждый из нас делает свой вклад в формирование огромного массива данных. Как?

Константин Рудаков: «Человек просто живет, тем самым продуцируя данные. Его действия фиксируют и измеряют. Например, люди покупают продукты, в результате чего операторам фискальных данных поступают миллионы чеков в день. Вас снимают видеокамеры, вы едете на машине или входите в метро — всё это порождение данных.

Сейчас большие данные порождаются повсеместно с безумной скоростью. Однако если у вас нет задачи и вы не знаете, как ее решить, то не нужно ни в коем случае собирать данные. Сначала придумайте, зачем они необходимы, научитесь их использовать правильно, придумайте или подберите алгоритмы, создайте и протестируйте макетные решения, выберите лучшее. Только после этого начинайте собирать данные, делать промышленное решение, потом занимайтесь его внедрением и сопровождением».

• Стоит ли нам переживать за свои данные? Как бизнес и государства должны защищать персональные данные?

Константин Рудаков: «Переживать — не очень правильное здесь слово. Нужно приспосабливаться, учиться жить с пониманием того, что громадное количество данных о вас уже везде есть. Мир становится другим, прозрачным.

Персональные данные должны защищаться, это уже в некотором смысле делается, хотя пока недостаточно. Но что подразумевается под защитой? Одно дело — технологическая защита данных от считывания и копирования, другое — выявление случаев некорректного использования данных. Во втором случае проблема страшнее. Если где-то меня зафиксировали без моего желания, пока это у них просто лежит — ничего страшного. Но как только эти данные используются и распространяются, за это надо наказывать крайне строго. Любое нелегальное использование персональных данных опаснее их воровства.

Однако нельзя абсолютизировать персональные данные. Например, не было бы медицины, если бы абсолютизировалась охрана персональных данных о здоровье. Представьте себе, что врач, вылечив больного, должен всё забыть. В таком случае полученный опыт невозможно будет использовать при лечении следующего пациента. Тут встает вопрос адекватной деперсонификации и корректного использования данных».

• Какие задачи индустриальные партнеры консорциума хотят решить с помощью анализа больших данных?

Константин Рудаков: «Задачи поддержки интеллектуальной деятельности на основании имеющихся у нас уникальных технологий анализа больших данных. Я бы разделял индустриальных партнеров типа соисполнителей и типа заказчиков. Например, компания “Антиплагиат”, совместно с которой реализуется проект “Средства интеллектуального анализа больших массивов текстов”, во многом соисполнитель. Возникающие научные проблемы в сфере анализа текстов, в частности, способен решать Московский университет. По этому проекту появляются хорошие и где-то опережающие технологии, связанные с кросс-языковым поиском, метаописаниями документов, внедрением элементов искусственного интеллекта».

• О том, как большие данные помогают бизнесу, сегодня говорят много, а как они помогают государствам?

Татьяна Ершова, директор, руководитель направления «Развитие партнерских отношений» Центра: «Лучше уточнить вопрос: как большие данные помогают не просто государствам, а органам государственной власти и местного самоуправления, а также в социальной сфере. В системе государственного управления активно используются результаты аналитики больших данных — как описательной (дескриптивной), так и предсказательной (предиктивной) — для выявления закономерностей и прогнозирования потребностей граждан и бизнеса в государственных услугах. В неменьшей степени аналитика больших данных используется и при выполнении государственных функций, таких, например, как контрольно-надзорная деятельность.

Еще большую значимость технологии хранения и анализа больших данных имеют для социальной сферы, особенно для здравоохранения, образования и науки. Анализ больших данных, основанный на применении технологий искусственного интеллекта, помогает врачам при постановке диагнозов, преподавателям школ и вузов — при выстраивании индивидуальных образовательных траекторий в процессе адаптивного обучения, научным работникам — при выявлении новых закономерностей из накопленных массивов данных физических экспериментов, сейсмологических наблюдений, геномных исследований и многого другого».

• Как устроена образовательная деятельность Центра?

Игорь Машечкин, руководитель направления «Разработка и реализация основных образовательных программ высшего образования, программ дополнительного образования, дисциплин (модулей), направленных на формирование компетенций» Центра: «Этот процесс основывается на разработке и применении образовательной платформы технологий хранения и анализа больших данных. В рамках первого этапа создания этой платформы к образовательной деятельности были привлечены ведущие профессорско-преподавательские кадры в области big data. На сегодня мы создали более 30 новых базовых курсов, распределенных по четырем группам. Первая включает курсы, связанные с аналитикой больших данных. В эту группу в основном входят дисциплины, базирующиеся на алгоритмах и методах теории вероятностей и математической статистики. Вторая группа — курсы по хранению больших данных, ориентированные на изучение как основ организации хранения big data, так и конкретных современных технологий хранения (MapReduce, Spark и прочие). Направление третьей группы курсов — программная инженерия и информационные технологии. Сюда входят дисциплины, которые связаны с инженерией разработки приложений, предполагающих обработку и анализ больших данных. Наконец, последняя группа — курсы по предметно-ориентированным знаниям, направленные на изучение анализа данных из конкретных предметных областей (медицина, информационная безопасность, государственная безопасность и прочие).

Сегодня разработанные курсы применяются в ряде ведущих вузов страны, которые входят в консорциум Центра. Среди них — МГУ, Белгородский государственный национальный исследовательский университет, Нижегородский государственный университет имени Н.И. Лобачевского, Санкт-Петербургский политехнический университет Петра Великого, Ульяновский государственный университет и другие. Более 800 студентов этих вузов получили специальные знания по направлению “Технологии хранения и анализа больших данных”, прослушав курсы, разработанные Центром.

Мы придерживаемся классической формы образования, когда курсы читаются в аудиториях для студентов. Но с этого года мы также начинаем разработку и внедрение дистанционных модификаций курсов, созданных в Центре, что станет частью следующего этапа создания образовательной платформы. Эти модификации будут служить дополнительным учебно-методическим материалом при классическом обучении студентов».

Комментарии: