Большие данные (big data), методы анализа, алгоритмы 2017

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, обработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Август 2017
Июль 2017
Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
птичий грипп
Реновация. Снос пятиэтажек в Москве

Новостная лента форума ailab.ru

Последние новости

 

Главные новости

2017-08-19 10:03

Светлана Белова: «Мы имеем цифровых двойников»


кибер безопасность, анализ больших данных, изучение социальных сетей

Мы оставляем огромный след своим поведением в интернете, о нас накоплено невероятное количество данных. Портал Finversia.ru порассуждал о возможных сценариях работы с данными вместе со Светланой Беловой, директором компании «Системы управления идентификацией», развивающей проект удаленного цифрового удостоверения личности IDX.

- Светлана, давайте начнем с самого интересного, что меня и многих моих знакомых сегодня волнует… Вот все эти тесты, которые мы радостно проходим в Фейсбуке, какая у них

2017-08-17 18:34

История развития машинного обучения в ЛК


кибер безопасность, машинное обучение и анализ данных, анализ больших данных

Автор статьи — Алексей Маланов, эксперт отдела развития антивирусных технологий «Лаборатории Касперского»

Я пришел в «Лабораторию Касперского» студентом четвертого курса в 2004 году. Тогда мы работали по сменам, ночами, чтобы обеспечить максимальную скорость реакции на новые угрозы в индустрии. Многие конкурирующие компании в то время выпускали обновления антивирусных баз раз в сутки, им круглосуточная работа была не так важна. Мы же гордились тем, что смогли перейти на ежечасные

2017-08-15 18:40

О цифровых методах в гуманитарных науках


анализ соцсетей, анализ больших данных, it новости

О цифровых методах в гуманитарных науках

Количество против качества

К 1960-м годам историки поняли, что информацию можно извлекать не только из традиционных источников — грамот, указов и дневников, но и из налоговых отчетов, записей в податных книгах и медицинской статистики. Отдельные записи в них не представляют ценности для исследователя, но, взятые в большом количестве, они дают прекрасный материал для статистического анализа.

В 1964 и 1974 годах экономист Роберт Фогель

2017-08-12 15:00

Пифагорейцы утверждали, что числа правят миром, а Александр Суворов называл математику «гимнастикой ума»


анализ больших данных, it новости

Пифагорейцы утверждали, что числа правят миром, а Александр Суворов называл математику «гимнастикой ума». Сейчас интерес к этой науке постепенно возрождается.

? «Тот, кто не знает математики, даже не может обнаружить своего невежества»

Сергей Ландо, доктор физико-математических наук, декан факультета математики НИУ ВШЭ

Как говорил мой учитель Владимир Игоревич Арнольд, «основной целью математического образования должно быть воспитание умения математически исследовать явления

2017-08-10 16:55

«Интернет-корпорации манипулируют нашим поведением». Как меняется жизнь, если вживить в руку биочип


Трансгуманизм, анализ больших данных

?

Два года назад Евгений Черешнев вживил себе биочип. Он хотел понять, каково быть «устройством» в интернете, и обалдел от результатов. В интервью Hi-Tech Mail.Ru Черешнев рассказал, как входить в метро без проездного и зачем корпорации следят за нашим поведением.

Евгений Черешнев привык, что люди смотрят на его левую руку. Многие знают, что у него под кожей биочип. На ощупь это капсула, как маленькая таблетка. Черешнев

2017-08-09 22:09

10 правил работы с Big Data | Data Science


big data

Как использовать большие данные в городских исследованиях и почему даже статистика ставит этические проблемы

Эра Big Data все еще начинается, этому направлению в анализе данных не больше 10 лет. Сами большие данные уже существуют достаточно давно, но только недавно появились полноценные исследовательские методики в этой области. В случае Москвы все еще впереди, особенно учитывая появление Большой Москвы, где применение Big Data может оказаться очень актуальным. Крупные американские города

2017-08-09 13:52

Битва за данные: какие войны назревают за новую нефть


анализ больших данных

Битва за данные: какие войны назревают за новую нефть

Каждый наш шаг оставляет цифровой след: когда мы гуглим значение нового мема, покупаем кофе в Старбаксе, слушаем музыку в Apple Music, лайкаем фотку соседского кота, кликаем виральный заголовок, смотрим новую серию «Игры престолов». И чем больше у нас гаджетов, тем больше данных о нас собирают. Компании пытаются узнать нас поближе, чтобы продать нам больше товаров и услуг. Иногда они знают о нас больше, чем мы знаем о себе.

2017-08-08 14:34

5 советов: как использовать Big Data в HR


big data

Представьте себе сайт Википедия. Если распечатать всю информацию, что появилась там с 2001 года, получится серия книг из 2053 томов. А если собрать все, что есть в интернете?

Это и есть Big Data. Человечество все создает и создает информацию. С 2005 по 2015 год было произведено 300 эксабайтов данных. Это на минуточку шесть триллионов (!) романов «Война и мир». Мы решили разобраться, зачем нужно анализировать большие данные и как это все-таки можно использовать в HR.

Больше знаешь,

2017-08-08 00:00

Белорусы придумали сервис, который сократит время пребывания в поликлинике


анализ больших данных, it новости

28—30 июля в Минске прошел первый в Беларуси Datathon — хакатон в области Big Data и Data Science.

В течение 48 часов команды разработчиков, бизнес-аналитиков, дизайнеров и маркетологов работали над проектами, которым нет аналогов в мире.

Для реализации стартапов компании-партнеры предоставили участникам все необходимые наборы данных.

По словам авторов, сейчас люди вынуждены тратить свое время на посещение доврачебного кабинета,

2017-08-06 19:29

Лекция Владимира Игловикова на тренировке Яндекса по машинному обучению


big data, пример нейронной сети

Скорее всего, вы слышали об авторе этой лекции. Владимир ternaus Игловиков занял второе место в британском Data Science Challenge, но организаторы конкурса не стали выплачивать ему денежный приз из-за его российского гражданства. Затем наши коллеги из Mail.Ru Group взяли выплату приза на себя, а Владимир, в свою очередь, попросил перечислить деньги в Российский Научный Фонд. История получила широкий охват в СМИ.

Спустя несколько недель Владимир выступил на одной из тренировок Яндекса по

2017-08-03 08:10

Мы готовы уйти в облако: как Азбука Вкуса стирает грань между онлайном и офлайном


большие данные

Мы готовы уйти в облако: как Азбука Вкуса стирает грань между онлайном и офлайном

В розничной сети «Азбука Вкуса» уверены, что технологичность - наиболее эффективный путь к повышению результативности работы и уникальный опыт, который можно быстро тиражировать в новых супермаркетах, которые компания активно открывает. Задача быть там, где твой потребитель, вместо того, чтобы «заманивать» его к себе, как прежде, требует иного подхода к выбору технологий и стратегии их внедрения.

Это

2017-07-31 15:01

«Парсек»-2017: как большие данные и современные игровые технологии изменят мир?


анализ социальных сетей, алгоритмы машинного обучения, большие данные, Семинары

О чем исследователи могут узнать по фото и лайкам в Instagram? Можно ли установить взаимосвязь между реальным городом и цифровым пространством? И как выделить в огромном массиве данных информацию, которая позволит изменить будущее городов? Об этом и многом другом ученые и спикеры Университета ИТМО рассказали на научно-популярной конференции «Парсек», которая проходит в рамках крупнейшего фестиваля для любителей фантастики «Старкон». Вуз организовал собственную секцию, посвященную Big Data,

2017-07-26 17:20

«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных


Семинары, большие данные

Конференции, посвящённые одной и той же теме, могут выглядеть совершенно по-разному. И когда планируется совсем новое мероприятие, заранее не вполне понятно, чего ожидать. Если конференция посвящена «большим и умным данным», то не окажется ли, что она рассчитана на гигантские компании и сотрудникам маленьких там делать нечего? И не будет ли там такого уклона в data science, что людям без учёной степени лучше не заходить?

В ожидании конференции SmartData, которая впервые состоится в

2017-07-26 00:46

Big Data. Занятие 1.1 и 1.2 Что такое большие данные, их виды и как их получить.


big data

Видеоуроки по BIG DATA. Основы работы с массивами больших данных.

Скачать презентации с ЯД:

yadi.sk/d/NRCupnST3LNR5d

Скачать дополнительные материалы и книги с ЯД:

yadi.sk/d/F2xBwxce3LNR5b

2017-07-21 17:10

List of biological databases


big data

“Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” – Dan Ariely

В 1880 году Бюро по переписи населения США столкнулось с неожиданной проблемой. По их подсчетам, анализ переписи 1880 года продолжался бы около 10 лет как раз до следующей переписи, запланированной в 1900 году. Решение вскоре было найдено в лице молодого ученого, Германа Холлерита, разработавшего

2017-07-20 09:26

230 лайков в социальных сетях, и мы знаем о вас все — Герман Греф


городские сумасшедшие, большие данные, блокчейн, искусственный интеллект

«Чего мы хотим от образования? Вырастить очень талантливых роботов, которые бегают быстрее всех или решают задачки лучше всех? Но все это умеют делать машины. У человека совершенно другая цель.

Ключевая задача системы образования – вырастить человека счастливым, гармоничным, вложить в него достаточный объем компетенций, чтобы он чувствовал себя личностью. А мы за период обучения должны понять и подсказать, где человек наиболее силен.

Можно индюка заставить лазать по деревьям и собирать

2017-07-19 09:51

12 лучших Python-библиотек для Data Science


методы машинного обучения, big data, теория программирования

12 лучших Python-библиотек для Data Science

Безграничные возможности для обработки данных.

В последние годы Python стал востребованным в области Data Science. Это стало возможным благодаря появлению библиотек, способных обрабатывать и визуализировать большие данные на уровне MATLAB, Mathematica и R. Далее поговорим о 15 лучших.

NumPy

Python SciPy Stack — набор библиотек, специально предназначенных для научных вычислений. Каждый, кто собрался использовать Python в науке, должен

2017-07-18 05:55

Прекрасно о том, что суть человека и человечества - это культура.


big data

Алексей Турчин

По-русски: новая статья от Гугла показала, что размер обучающего датасета важнее, чем архитектура нейросети - для ее успеха. Сделали датасет на 300 млн картинок. Это подвтерждает недавно закравшееся в меня нехорошее подозрение, что нет никакого человеческого интеллекта - а есть только воспроизведение и продолжение датасета, на котором мозг был обучен. Вся сложность мозга - не в нем, а в датасете, в культрке нашей. Отсюда следует, что создать "ИИ" в кавычках просто - надо

2017-07-17 16:00

«Покупая хороший шоколад со скидкой, я понял, что Big Data — это полезно»


исследование социальных сетей, big data

Big Data — это работа с большими объемами данных. И 100 лет назад, и 50 лет назад люди анализировали информацию, но теперь объем данных настолько сильно вырос, что ни вручную, ни на домашнем компьютере невозможно быстро обрабатывать такие данные.

Александр Иванов, автор проекта Finsovetnik.com, рассказал, как любой программист может работать с Big Data.

Большие данные может брать каждый

Первым популярным поставщиком Big Data являются социальные

2017-07-17 10:20

Можно ли уехать из Клинцов? (data mining of blablacar.ru)


большие данные, разработка по

Парсинг сайта blablacar.ru и анализ пассажиропотока из г. Клинцы Брянской области с помощью языка программирования R.

Предыстория

По воле разных обстоятельств дауншифтнулся в небольшой город Брянской области (г. Клинцы). Живу, работаю, интересуюсь культурным отдыхом. «Куда здесь можно сходить?» — спрашиваю у местных. «Лучше всего сходить на вокзал за билетами», — доброжелательно советуют клинчане.

Идея понравилась, и в качестве отдохновения от забот решил заняться одно-двухдневными

2017-07-12 22:00

Как большие данные в медицине — Михаил Пайсон


большие данные, искусственный интеллект в медицине

Руководитель проекта Яндекс.Здоровье, Михаил Пайсон, рассказывает об использовании больших данных в медицине.

Где можно прямо сейчас использовать большие данные?

Фактически, для врача это в основном диагностика систем поддержки принятия решений. То есть мы прямо сейчас еще, кажется, боимся сказать, что мы диагностировали на 100%, что у пациента эта штука, лечите вот так, врач не нужен, делаем автоматически. Сейчас мы пока не готовы, как разработчики алгоритмов, принимать такие решения.

2017-07-12 19:32

В предыдущих постах мы рассказали о нескольких курсах для изучения с нуля программирования на Питоне и анализа данных


big data

В предыдущих постах мы рассказали о нескольких курсах для изучения с нуля программирования на Питоне и анализа данных. И если некоторые из них вам понравились, то, возможно, вы захотите и дальше развиваться в сфере Data Science. Но наука о данных необъятна, и вам придется выбирать, на каком именно ее направлении сконцентрироваться в первую очередь.

На этот раз мы не станем рекомендовать какой-то отдельный курс - вместо этого мы представим список ресурсов, являющихся своего рода

2017-07-05 19:34

Big Data в Райффайзенбанке


анализ больших данных

Всем привет!

В этой статье мы расскажем про Big Data в Райффайзенбанке. Но прежде чем перейти к сути, хотелось бы внести ясность по поводу самого определения Big Data. Действительно, в последние несколько лет этот термин употреблялся во множестве контекстов, что привело к размытию границ самого термина и потере содержательной части. Мы в Райффайзенбанке выделили три направления, которые мы относим к Big Data:

(Отметим, что несмотря на то, что данная схема выглядит достаточно просто, есть

2017-07-05 15:01

Секция «Data Mining - новая нефть»


big data

Как большие данные имплементируются в маркетинг и рекламу. Применение Data Mining для повышения лояльности клиентов. Как меняется бизнес-модель и готов ли российский средний и малый бизнес к AI. Обсуждение реализованных кейсов с техплатформами, маркетологами и агентствами.

16 мая 2017 года культурно-деловой квартал LUCKY+ превратился в настоящий город в городе – AdIndex City Conference, где собрались все, кто работает в рекламе, маркетинге, медиа и пиаре.

Более 119 спикеров, 5 одновременных

2017-07-05 14:25

Big Data для Биг государства


большие данные

На конференции «Драйверы рынка больших данных» глава комитета Госдумы по информполитике Левин исключил возможность саморегулирования Big Data и заверил, что парламент готов обсуждать закон о больших данных

В том, что государство не готово идти на диалог с интернет-отраслью, даже устраивая посиделки а-ля «Вы тут поприсутствуйте, а мы всё за вас решим», стало понятно уже с момента принятия невыполнимого «пакета Яровой», а то и раньше. Поэтому совершенно не вызывает удивления позиция
 

2017-08-17 10:07

Основы нейронных сетей и Deep Learning


большие данные

Подборка выступлений с Moscow Data Science Meetup — русскоязычного мероприятия для интересующихся Data Science, анализом, майнингом и визуализацией структурированных и неструктурированных данных.

Прикрепленные видео:

1. Основы нейронных сетей и Deep Learning — Алексей Озерин.

2–3. Обработка больших данных при помощи Apache Spark — Виталий Худобахшов.

4. Как перестать бояться и начать решать convai.io — Валентин Малых.

5. Градиентный бустинг: возможности, особенности и фишки

2017-08-16 17:08

#1 Большие данные в большой компании | Включайся!


анализ больших данных

Что такое Big Data и как это на самом деле влияет на мир вокруг нас?

Прямо сейчас в прямом эфире Екатерина Линкевич – директор по аналитике больших данных большой компании МегаФон.

2017-08-10 19:07

Лекция 1: Общее понятие о больших данных


big data

Видеокурс «Введение в аналитику больших массивов данных».

Русскоязычный курс, знакомящий слушателей с основными понятиями в области аналитической обработки больших данных. В курсе изложены основы машинного обучения, визуализации и хранения больших данных.

В данном видеокурсе:

1. Общее понятие о больших данных.

2. Основные вызовы больших данных.

3. Определение термина «большие данные».

4. Процесс аналитики.

5. Введение в когнитивный анализ данных.

6.

2017-08-05 13:10

37 причин, почему ваша нейросеть не работает


big data, пример нейронной сети

Сеть обучалась последние 12 часов. Всё выглядело хорошо: градиенты стабильные, функция потерь уменьшалась. Но потом пришёл результат: все нули, один фон, ничего не распознано. «Что я сделал не так?», — спросил я у компьютера, который промолчал в ответ.

Почему нейросеть выдаёт мусор (например, среднее всех результатов или у неё реально слабая точность)? С чего начать проверку?

Сеть может не обучаться по ряду причин. По итогу многих отладочных сессий я заметил, что часто делаю одни и те же

2017-07-27 12:50

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов


Кластеризация, большие данные

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна.

2017-07-22 19:07

Методы и системы обработки больших данных | Иван Пузыревский


анализ больших данных

Видеокурс «Методы и системы обработки больших данных».

Русскоязычный курс, посвященный методам построения систем обработки больших данных и существующим инструментам в этой области. Цель курса — дать понимание внутреннего устройства, механики работы, области применимости существующих решений, осветить сильные и слабые стороны, научить практическим навыкам анализа больших массивов информации.

В данном видеокурсе:

1. HDFS.

2. MapReduce.

3. HBase.

4. Cassandra.

5.

2017-07-14 11:07

Big Data — всё по этой теме для программистов


машинное обучение и анализ данных, анализ больших данных

Всё для изучения Python: 181 бесплатный материал + бонус

В данном списке вы сможете найти материалы для изучения языка Python с целью применения его в анализе данных и не только. Последний раздел — это бонус: если этой подборки вам оказалось... Читать дальше

Уникальное событие: эксперт по Big Data Кристал Валентайн приедет с единственным выступлением в Россию

Информация подтвердилась, на крупнейшей конференции программистов России «Разработка ПО» Кристал Валентайн расскажет, как технологии

2017-07-09 10:33

011. Neural conversational models: как научить нейронную сеть светской беседе — Борис Янгель


анализ больших данных

Подборка лекций с Data & Science — конференции, на которой ведущие учёные и эксперты рассказывают о применении больших данных в фундаментальной и прикладной науке.

Прикрепленные к посту видео:

1. Neural conversational models: как научить нейронную сеть светской беседе — Борис Янгель.

2. Goal-Oriented диалоговые движки — Евгений Волков.

3. What’s hot in bioinformatics? From data to implementations — Андрей Афанасьев.

4. Алгоритмические задачи в биоинформатике — Игнатий

2017-07-06 14:12

Отжиг и вымораживание: две свежие идеи, как ускорить обучение глубоких сетей


архитектура нейронных сетей, большие данные, алгоритмы машинного обучения

В этом посте изложены две недавно опубликованные идеи, как ускорить процесс обучения глубоких нейронных сетей при увеличении точности предсказания. Предложенные (разными авторами) способы ортогональны друг другу, и могут использоваться совместно и по отдельности. Предложенные здесь способы просты для понимания и реализации. Собственно, ссылки на оригиналы публикаций:Snapshot ensembles (апрель 2017)FreezeOut (июнь 2017)

1. Ансамбль снимков: много моделей по цене одной

Обычные ансамбли

2017-06-28 10:33

Автоматическое извлечение семантической информации из текста - Иван Титов


изучение социальных сетей, техническое зрение, большие данные

Подборка лекций от ведущих исследователей анализа данных, информационного поиска и других областей.

Прикрепленные видео:

1. Автоматическое извлечение семантической информации из текста — Иван Титов.

2. Квантовое хеширование — Фарид Аблаев.

3. Будущее нейрокомпьютерных интерфейсов — Nathan Intrator.

4. Компьютерное зрение — Andrea Vedaldi.

5. Экстремальные свойства графов, возникающие из социальных сетей — Konstantin Avrachenkov.

6. Торги в реальном времени — Jun

2017-06-22 10:21

«Максимальный репост»


чатбот, анализ больших данных, изучение социальных сетей

Способны ли социальные сети искажать наше представление о реальности? Почему мы склонны доверять своим друзьям даже в тех случаях, когда они делятся с нами ссылками на непроверенные сообщения, а то и на прямую дезинформацию? И как эта доверчивость влияет на наши поступки в реальном мире — например, на наше решение проголосовать за того или иного кандидата в президенты? Читайте об этом в статье профессора компьютерных наук и информатики Филиппо Менцера, которую опубликовало издание The

2017-06-19 06:02

Ловись Data большая и маленькая! (Краткий обзор курсов по Data Science от Cognitive Class)


big data

В последнее время все чаще натыкаюсь на упоминание о «Data Science» или по-нашему «Наука о данных». Не являюсь специалистом в области IT и на протяжении всей жизни не дружу с мат. анализом и статистикой, поэтому я достаточно долго проходил мимо этого вопроса и наверное, продолжал бы проходить стороной, но в какой-то момент любопытство взяло верх.

Итак, Cognitive Class, он же Big Data University от IBM (иногда сокращенно BDU) – портал с бесплатными курсами по тематике близкой к BIG Data и

2017-06-15 11:07

Подборка лекций с «Data & Science» — конференции


большие данные

Подборка лекций с «Data & Science» — конференции, на которой ведущие учёные и эксперты рассказывают о применении больших данных в фундаментальной и прикладной науке.

Прикрепленные к посту видео:

1. Явления, измерения, результаты: размышления об анализе данных в физике — Владимир Шевченко.

2. Большие данные на Большом адронном коллайдере — Фёдор Ратников.

3. Оптимизация топологического триггера LHCb — Татьяна Лихоманенко.

4. Пример анализа данных в физике высоких энергий

2017-06-01 17:18

ЦИПР-2017. Big Data: теория и практика принятия решений


большие данные

Big Data: теория и практика принятия решений

2016 год стал прорывным по внедрению технологии? анализа больших данных в государственном управлении. В мире наметился переход от концепции E-Government (web 2.0) к Government 3.0, в которои? данные являются сердцем платформы. Результаты анализа больших данных все чаще ложатся в основу решении?, принимаемых на государственном уровне.

Дата проведения: 24.05.2017

Официальный сайт конференции ЦИПР: http://cipr.ru

2017-05-15 22:31

Введение в обработку Больших Данных


большие данные

Фразы «Большие данные», «искусственный интеллект» мы слышим сегодня буквально каждый день. Для многих они ассоциируются с фильмами Матрица / Терминатор, а вовсе не с реальной жизнью. И уж тем более не с реальными профессиями в области IT.

На мастер-классе я расскажу, почему IT-специалистам (особенно будущим) крайне важно понимать эти термины сейчас. Мы обсудим базовые понятия и инструменты в области обработки Больших Данных и где этому научиться.

Дополнительные материалы по теме:

2017-04-30 07:28

Весь мир — BIG DATA


машинное обучение и анализ данных, анализ больших данных

Практически любой близкий к IT-индустрии человек хоть раз да слышал эти загадочные два слова — «BIG DATA». Что за ними скрывается, где применяются технологии обработки больших объемов данных и с чего можно начать при их изучении, рассказал Евгений Чернов — преподаватель образовательного проекта «Техносфера» и создатель онлайн курсов по Hadoop — системе обработки больших объемов данных.

В первую очередь с большими объемами данных столкнулись, конечно же, большие компании, такие как Google.

2017-04-23 20:46

Артур Хачуян: «Настоящая Big Data в рекламе»


анализ больших данных

Познавательная лекция о том, как действительно работает Big Data в рекламе сегодня. Можно извлечь кучу идей для своих проектов! ?

2017-04-03 18:10

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков


методы машинного обучения, Кластеризация, пример нейронной сети, big data

Сообщество Open Data Science приветствует участников курса!

В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель,

2017-03-21 06:43

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии


большие данные, алгоритмы машинного обучения, реализация нейронной сети

Сегодня мы детально обсудим очень важный класс моделей машинного обучения – линейных.

Ключевое отличие нашей подачи материала от аналогичного в курсах эконометрики и статистики – это акцент на практическом применении линейных моделей в реальных задачах (хотя и математики тоже будет немало).

Пример двух таких задач – это соревнования Kaggle Inclass по прогнозированию популярности статьи на Хабре и по идентификации взломщика в Интернете по его последовательности переходов по сайтам. Домашним

2017-03-19 16:06

Лекция 1: Задачи Data Mining


Кластеризация, big data

Алгоритмы интеллектуальной обработки больших объемов данных

1. Задачи Data Mining

2. Задача кластеризации и ЕМ-алгоритм

3. Различные алгоритмы кластеризации

4. Задача классификации

5. Обработка текстов, Naive Bayes

6. Линейные модели для классификации и регрессии

7. Машина опорных векторов

8. Методы снижения размерности пространства

9. Алгоритмические композиции

Все 13 лекций доступны по ссылке:

https://vk.com/videos-54530371?section=album_56085995

2017-01-11 13:12

Машинное обучение — это легко


алгоритмы машинного обучения, большие данные

В данной статье речь пойдёт о машинном обучении в целом и взаимодействии с датасетами. Если вы начинающий, не знаете с чего начать изучение и вам интересно узнать, что такое «датасет», а также зачем вообще нужен Machine Learning и почему в последнее время он набирает все большую популярность, прошу под кат. Мы будем использовать Python 3, так это как достаточно простой инструмент для изучения машинного обучения.

Для кого эта статья? Каждый, кому будет интересно затем покопаться в истории за

2016-12-03 14:54

Актуальная математика: Математика в нейронных сетях


Семинары, большие данные, искусственные нейронные сети

"10 лет назад появился новый класс нейронных сетей — так называемые глубинные сети, и они творят чудеса. Но почему и как работает этот чисто эвристический подход, до сих пор не понимает никто. На самых престижных конференциях по анализу данных организуются круглые столы для обсуждения того, какие fundamentals лежат в их основе, но ответа пока нет. Может быть, этим не заинтересовались действительно великие математики, может быть, чего-то не хватает в самой математике, требуется новый язык,

2016-11-16 17:25

Сотворение мира Опыт создания разумной жизни своими руками


методы машинного обучения, big data, Виртуальная реальность новости

Иногда проводишь день в попытках без использования терминов «рекурсивный вызов» и «идиоты» объяснить главному бухгалтеру, почему на самом деле простое изменение учетной системы затягивается почти на неделю из-за орфографической ошибки, допущенной кем-то в коде в 2009 году. В такие дни хочется пооборвать руки тому умнику, который сотворил этот мир, и переписать все с ноля.

Под катом история о том, как я в качестве практики для изучения Python разрабатываю свою библиотеку для агентного

2016-11-01 00:30

Статистика для математика


big data

В современных условиях интерес к анализу данных постоянно и интенсивно растет в совершенно различных областях, таких как биология, лингвистика, экономика, и, разумеется, IT. Основу этого анализа составляют статистические методы, и разбираться в них необходимо каждому уважающему себя специалисту в data mining.

К сожалению, действительно хорошая литература, такая что умела бы предоставить одновременно математически строгие доказательства и понятные интуитивные объяснения, встречается не очень

2016-09-11 21:03

"Опыт участия в Microsoft Malware Classification Challenge" Михаил Трофимов (Machine Learning Works)


большие данные, распознавание образов, алгоритмы машинного обучения, искусственные нейронные сети, реализация нейронной сети

Несколько докладов по анализу данных и машинному обучению с недавнего Python Data Science meetup

1. О том, как проанализировать 200 Гб данных на ноутбуке, какие проблемы могут возникнуть в процессе и как автор с ними боролся.

2. Об опыте построения алгоритма классификации изображений автомобилей.

3. Как научить приложение распознавать категории объявлений по изображениям.