Кластеризация

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, обработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Август 2017
Июль 2017
Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
птичий грипп
Реновация. Снос пятиэтажек в Москве

Новостная лента форума ailab.ru

Последние новости

 

Главные новости

2017-08-18 20:32

Подборка материалов по кластеризации


Кластеризация

Подборка материалов по кластеризации.

Кластеризация — это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы оказываются «похожие» объекты, а объекты разных групп имеют как можно больше отличий. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма, поэтому кластеризация относится к обучению без учителя.

Вики-подобная статья о кластеризации с общей информацией и

2017-08-01 18:02

Кластеризация маркеров на карте Google Maps API


Кластеризация

Привет, Хабр! Хочу рассказать о моем опыте разработки карты с кластеризованными маркерами на google maps api и React.js. Кластеризация — это группировка близлежащих маркеров, меток, точек в один кластер. Это помогает улучшить UX и отобразить данные визуально понятнее, чем куча наехавших друг на друга точек. Компания, в которой я работаю, создает уникальный продукт для СМИ, это мобильное приложение, смысл которого заключается в съемке фото/видео/стрим материалов и возможности получить отличную

2017-07-18 12:50

Ученый нашел главные слова хеви-метала


Кластеризация

Частота использования различных слов в песнях heavy metal групп в виде облака тегов. Параметр «металичности» не учитывается. Degenerate State

Специалист по обработке данных, автор блога Degenerate State, опубликовал список слов, наиболее характерных для музыкальных произведений в стиле heavy metal. Ученый проанализировал свыше 200 тысяч текстов песен и выяснил, что самыми «металичными» можно назвать слова burn («сжигать», «ожог»), cries («крики», «вопить»), veins («вены»),

2017-06-01 18:36

Летняя школа по сетевому анализу


Кластеризация

Специально для тех, кто еще не разобрался в сетевом анализе!

19-23 июня НИУ ВШЭ проведет VII международную летнюю школу «Теория и методы сетевого анализа» (TMSA-2017).

Тема школы этого года — «Кластеризация сетевых данных: методы и применение».

Первая часть курса посвящена наиболее часто используемым подходам кластеризации, которые реализованы в большинстве статистических программ (R, SPSS, SAS и др.).

Во второй части курса будут представлены кластеринг с реляционным

2017-05-17 19:40

Анализ взаимосвязи навыков с помощью графов в R


big data, Кластеризация, методы машинного обучения

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.

Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов,

2017-05-09 20:17

Смешанные регрессионные модели в R — Иван Иванчей


Кластеризация

Смешанные регрессионные модели в R — Иван Иванчей

Классические методы статистического вывода часто требуют сбалансированных по условиям независимых наблюдений. Однако на практике мы постоянно сталкиваемся с разного рода зависимостями в данных: повторными измерениями, кластеризацией наблюдений, несбалансированностью сравниваемых условий. Это может привести к ненадёжным выводам. Один из самых эффективных способов борьбы с такими неприятностями — регрессионные модели, учитывающие отдельно

2017-03-09 21:51

Обзор алгоритмов кластеризации данных


Кластеризация

В своей дипломной работе я проводил обзор и сравнительный анализ алгоритмов кластеризации данных. Подумал, что уже собранный и проработанный материал может оказаться кому-то интересен и полезен. О том, что такое кластеризация, рассказал sashaeve в статье «Кластеризация: алгоритмы k-means и c-means». Я частично повторю слова Александра, частично дополню. Также в конце этой статьи интересующиеся могут почитать материалы по ссылкам в списке литературы.

Так же я постарался привести сухой

2017-02-04 20:39

Кластеризация дубликатов в Яндекс.Картинках


it новости, Кластеризация

Сегодня в клубе Яндекс.Субботник появилось интересное видео о том, как Яндекс обрабатывает изображения для исключения дубликатов. Рассказывает Александр Крайнов: он с 2000 года занимается проектами, связанными с обработкой медиаданных. В Яндексе отвечает за проекты, в которых задействовано компьютерное «зрение».

О докладе

Легко найти дубликаты среди тысяч картинок. Сложнее – среди миллионов. И совсем трудно – среди миллиардов. Чем выше полнота работы алгоритма, тем больше проблем. Но в то же

2017-02-02 14:06

Задача кластеризации


большие данные, Кластеризация, алгоритмы машинного обучения

- Лекция 1: Задачи Data Mining - Лекция 2: Задача кластеризации и ЕМ-алгоритм - Лекция 3: Различные алгоритмы

2017-01-24 12:02

Что делать, когда геоданных много, а визуализировать их надо


Кластеризация

С ростом объемов данных и необходимости их визуализации зачастую возникает проблема их переполненности и невозможности визуализировать все и везде. James Milner собрал способы визуализировать большое количество геоданных на картах, которые делают их не только более информативными, но и просто красивыми.

Первый способ “улучшить” карту с кучей геоданных - кластеризация. Это довольно классический метод сокращения данных путем группировки точек разного уровня. Например, объединение по

2017-01-13 06:02

Алексей Савватеев. Теоретико-игровая модель глубокого социального раскола


Семинары, Кластеризация

АЛЕКСЕЙ САВВАТЕЕВ "BREXIT, ТРАМП И УКРАИНСКИЙ КОНФЛИКТ НА ЯЗЫКЕ МАТЕМАТИКИ: ТЕОРЕТИКО-ИГРОВАЯ МОДЕЛЬ ГЛУБОКОГО СОЦИАЛЬНОГО РАСКОЛА". ЛЕКЦИЯ В ИМЭИ ИГУ 14.12.2016

Популярная лекция об играх дискретного выбора на социальных сетях. Физики работают с данным инструментарием достаточно давно, но именно при моделировании поведения людей, зависящего от окружения, эта задача становится по-настоящему сложной и интересной. Как распространяется общественное мнение и эпидемии и можно ли этому

2017-01-09 09:35

Необычные открытия новосибирских ученых 2016 года


Кластеризация

Биоинформатик приняла участие в создании первой 3D-модели вируса Зика

Кандидат биологических наук Анастасия Бакулина из Новосибирского государственного университета приняла участие в создании компанией Visual Science первой подробной 3D-модели вируса Зика. Построенная на основе научных данных модель вируса сможет помочь ученым в разработке диагностики и вакцины против лихорадки, вызываемой тропическим вирусом.

Археологи сообщили о находке Ларгинской писаницы в Забайкалье Ларгинская

2017-01-06 12:21

Старение начнут предсказывать по 26 биомаркерам


Кластеризация, анализ больших данных

Американские ученые разработали метод системного анализа старения организма на основе 26 биомаркеров. Результаты исследования представлены в журнале Aging Cell.

Одним из последствий роста средней продолжительности жизни в XX веке стало демографическое старение населения. При этом известно, что в зависимости от средовых, наследственных и эпигенетических факторов процессы биологического старения у отдельных индивидов протекают по-разному. Поэтому ученые ищут универсальные способы повышать

2017-01-05 19:24

Алексей Савватеев "Игры дискретного выбора на социальных сетях"


Кластеризация

VI ШКОЛА МАСЭП (КРЫМ, 22-26 ИЮЛЯ 2016): АЛЕКСЕЙ САВВАТЕЕВ "ИГРЫ ДИСКРЕТНОГО ВЫБОРА НА СОЦИАЛЬНЫХ СЕТЯХ"

Физики (достаточно вспомнить модель Изинга) работают с данным инструментарием достаточно давно, но именно при моделировании поведения людей, зависящего от окружения, эта задача становится по-настоящему сложной и интересной. Как распространяется общественное мнение и эпидемии и можно ли этому препятствовать, как товары входят в моду и как формируются политические блоки и коалиции – лишь

2017-01-04 14:02

Мир полон вероятностей и неопределенностей, но понять природу случайности дано не каждому


Кластеризация

Мир полон вероятностей и неопределенностей, но понять природу случайности дано не каждому. Если подброшенная монета 5 раз выпала орлом, чего следует ожидать при следующем броске? Если ваш ответ “решка”, подумайте снова. Орлы и решки равновероятны, у случайных событий нет памяти о том, что случилось прежде.

Даже лучшие математики заблуждались относительно закономерностей случайных явлений. Понадобились века, чтобы в них разобраться.

Простая задача: в семье два ребенка и известно, что

2016-12-30 08:23

Алексей Савватеев "Brexit на языке математики"


Семинары, Кластеризация

АЛЕКСЕЙ САВВАТЕЕВ "BREXIT НА ЯЗЫКЕ МАТЕМАТИКИ" (ЛЕКЦИЯ В УНИВЕРСИТЕТЕ ДМИТРИЯ ПОЖАРСКОГО 13 ОКТЯБРЯ 2016)

Алексей Савватеев об играх дискретного выбора на социальных сетях. Физики (достаточно вспомнить модель Изинга) работают с данным инструментарием достаточно давно, но именно при моделировании поведения людей, зависящего от окружения, эта задача становится по-настоящему сложной и интересной. Как распространяется общественное мнение и эпидемии и можно ли этому препятствовать, как товары

2016-12-26 10:03

Анализ одной атаки


Кластеризация

Некоторые выводы об интернет-троллях Ситуация с приостановкой Рособрнадзором лицензии на образовательную деятельность Европейского университета в Санкт-Петербурге (ЕУ) три недели назад вызвала в СМИ массу публикаций, как направленных на его поддержку, так и явно негативно окрашенных по отношению к вузу. ЕУ – вуз частный и очень независимый в плане проводимых исследований. Именно эта несистемность кому-то может не нравиться, что и нашло свое отражение в освещении ситуации. Вуз даже официально

2016-11-19 17:59

Подведены итоги первого конкурса VK Testing Challenge.


ИТ-гиганты, Кластеризация

Мы получили 30459 заявок на участие, 5736 из которых были одобрены. 2846 человек отправили как минимум один баг-репорт, общее количество отчетов в конкурсном баг-трекере перевалило за 15000.

Для поиска дубликатов мы использовали методы NLP на основе нейронных сетей и алгоритмы кластеризации. Количество баллов за каждый отчет зависело от приоритета бага, актуальности и корректности описания. За ошибочный выбор приоритета оценка снижалась, баллы за пожелания не начислялись. После подсчета

2016-11-16 15:36

Семантика саи


Кластеризация

Семантическое ядро, составление семантики и кластеризация поисковых запросов, именно на эту тему подготовил доклад Артур Латыпов.

Ни для кого не секрет, что правильно составленное семантическое ядро, это один из главнейших факторов при продвижении сайта. Подобрать запросы это еще не все, необходимо правильно подбирать семантику для сайта, в нынешних реалиях, помимо основных запросов, необходимо собрать пул дополнительных запросов и провести их тщательную кластеризацию. Знание о кластерах

2016-11-14 14:25

Типы закономерностей, выявляемых методами Data Mining


большие данные, Кластеризация

Типы закономерностей, выявляемых методами Data Mining

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных

2016-10-31 16:01

Canon помогает открывать новые галактики


Кластеризация

Когда Астроном Pieter van Dokkum способы изучения галактик, он обратился к оборудованию, с которым был знаком как фотограф-любитель. Благодаря некоторым передовым оптическим решениям ему и его команде исследователей удалось обнаружить ранее невидимые галактики.

В 2011 году Pieter van Dokkum и профессор Roberto Abraham обсуждали способы запечатления рассеивающегося космического света, который не улавливают такие телескопы, как Hubble. Pieter van Dokkum обратился к своему потребительскому

2016-10-05 15:30

Работа с Big Data при помощи GPU: ускорение работы баз данных в десятки раз05.10.2016 12:33


Кластеризация, искусственные нейронные сети

Уже несколько лет дата-центры многих компаний работают с вычислениями с ускорением на GPU. Наша компания сейчас изучает этот вопрос, поскольку такой тип вычислений становится все более востребованным. Так, вычисления с ускорением на GPU можно (и нужно) использовать для ускорения требовательных к ресурсам приложений, созданных для работы в таких сферах, как глубокое обучение, аналитика и проектирование. Этот метод используют

2016-09-27 17:36

Анализ госзакупок показывает, что треть из них проходит по завышенным ценам


Кластеризация

Потери бюджета от завышения цен при госзакупках только в открытой части составляют не менее 1,5-2 трлн руб. в год. Проверив эти оценки с помощью программы анализа больших массивов данных "Антирутина", корреспондент "Денег" обнаружил материал для как минимум полутора миллионов антикоррупционных дел.

ВЛАДИМИР РУВИНСКИЙ

Переплата за товары и услуги на госзакупках в 2015 году составила в среднем 16%, следует из контент-анализа сделок на сайте "Госзакупки", проведенного проектом "Антирутина".

2016-09-25 16:36

Быстрые данные против больших: как скорость обработки информации меняет бизнес и общество


Кластеризация, big data

Данные сегодня настолько «большие», что важно уже не просто обеспечить их хранение, а научиться оперативно обрабатывать и использовать эти массивы. По оценке аналитиков из IDC, к 2019 году рынок данных вырастет на 50% до $187 млрд. Это говорит о растущих потребностях компаний в решениях, которые помогут извлечь пользу из накопленных данных.

Возникает вопрос - как сделать так, чтобы это происходило в режиме реального времени. Данную задачу ставят перед собой разработчики ПО на базе

2016-09-25 14:36

Программное обеспечение для кластеризации людей, имеющих общие участки в аутосомной ДНК


Теория эволюции, Кластеризация

Дмитрий Русаков, Мария Краснова

При анализе списков родственников по аутосомной ДНК одной из главных сложностей является определение того, по какой из предковых линий происходит пересечение с тем или иным человеком. Особенно критично эта проблема встает в тех ситуациях, когда, из-за отсутствия генетического материала или нехватки денежных средств, отсутствует возможность протестировать предков или родственников персоны, по которой ведется исследование.

Для решения данной проблемы было
 

2017-08-04 11:59

Поиск лучшего места в мире для ветряка


ИИ проекты, Кластеризация, Методы научного исследования, алгоритмы машинного обучения

История о том, как NASA, ESA, Датский Технологический Университет, нейронные сети, деревья решений и прочие хорошие люди помогли найти мне лучший бесплатный гектар на Дальнем Востоке, а также в Африке, Южной Америке и других “так себе” местах.

Предыстория Кажется, года два назад, а может быть уже и три, объявили о програ мме раздачи бесплатных гектаров на Дальнем Востоке России. Быстренько посмотрев на карту, стало понятно, что просто так выбрать правильный гектар не так уж и просто, а

2017-07-27 12:50

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов


Кластеризация, большие данные

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна.

2017-07-13 17:24

Актуальная математика Кластеризация


Кластеризация

Актуальная математика

1. Кластеризация

2. Коллективные эффекты в топологии

3. Математика в нейронных сетях

4. Изгибаемые многогранники

5. Интегрируемая геометрия

6. Многомасштабные взаимодействия

2017-06-26 21:16

10 главных алгоритмов машинного обучения


Кластеризация, машинное обучение и анализ данных

Нет сомнений, что искусственный интеллект и машинное обучение в течение последних нескольких лет обрели широкую известность. Как технологии Big Data удерживают статус самого обсуждаемого IT-тренда современности, так и алгоритмы машинного обучения можно считать наимощнейшим инструментом, ориентированным на прогнозное приложение больших объемов данных. Один из наиболее глобальных примеров использования машинного обучения — алгоритмы Netflix, которые предлагают

2017-06-26 14:00

Теория сетей: 1. Сетевая парадигма


Кластеризация

Теория сетей

Теория сетей: Обзор курса

Теория сетей: 1. Сетевая парадигма

Теория сетей: 2. Введение в теорию сетей

Теория сетей: 3. Основы теории графов

Теория сетей: 4. Связи

Теория сетей: 5. Центральность

Теория сетей: 6. Топология сети

Теория сетей: 7. Связность

Теория сетей: 8. Диаметр и масштаб

Теория сетей: 9. Кластеризация и связанность

Теория сетей: 10. Распределение степеней

@bookflow

2017-05-15 16:32

Прикладное применение задачи нелинейного программирования


Кластеризация, теория программирования

В свое время, будучи студентом младших курсов, я начал заниматься научно-исследовательской работой в области теории оптимизации и синтеза оптимальных нелинейных динамических систем. Примерно в то же время появилось желание популяризировать данную область, делиться своими наработками и мыслями с людьми. Подтверждением этому служит пара-тройка моих детских незрелых статей на Хабре. Тем не менее, на тот момент эта идея оказалась для меня непосильной. Возможно ввиду моей занятости, неопытности,

2017-05-14 19:41

Рост автономных платформ обработки данных или еще раз про Big Data


анализ больших данных, Кластеризация

Большие данные сегодня, ну, БОЛЬШИЕ. В исследовании IDC за 2016 год под названием «Полугодовое руководство по расходам на большие данные и аналитику» прогнозируется, что общемировой оборот на больших данных вырастет со $130 млрд в 2016-м до более чем $203 млрд в 2020-м, то есть совокупный годовой рост будет на уровне 11,7%. По мнению IDC, росту способствуют три фактора: увеличение доступности гигантских объёмов данных, богатый ассортимент развивающихся open source-технологий для работы с

2017-04-29 11:32

Алгоритмы интеллектуального анализа данных


нейросеть пример, Кластеризация

Рассказывает Рэй Ли, автор блога raily.net

Сегодня я постараюсь простым языком объяснить 10 самых важных алгоритмов интеллектуального анализа данных, по результатам  опросов трех разных групп экспертов в этом исследовании.

После того, как я расскажу вам об этих алгоритмах, о том как они работают, что делают и где их можно найти, я надеюсь, что вы используете свои новоприобретенные знания для еще более глубокого изучения добычи данных.

Что он делает? C4.5 создает классификатор в

2017-04-10 14:50

Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация


Кластеризация, методы машинного обучения

Привет всем! Приглашаем изучить седьмую тему нашего открытого курса машинного обучения!

Данное занятие мы посвятим методам обучения без учителя (unsupervised learning), в частности методу главных компонент (PCA — principal component analysis) и кластеризации. Вы узнаете, зачем снижать размерность в данных, как это делать и какие есть способы группирования схожих наблюдений в данных. Список статей серии

Первичный анализ данных с Pandas Визуальный анализ данных c Python Классификация,

2017-04-03 18:10

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков


методы машинного обучения, Кластеризация, пример нейронной сети, big data

Сообщество Open Data Science приветствует участников курса!

В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель,

2017-03-19 16:06

Лекция 1: Задачи Data Mining


Кластеризация, big data

Алгоритмы интеллектуальной обработки больших объемов данных

1. Задачи Data Mining

2. Задача кластеризации и ЕМ-алгоритм

3. Различные алгоритмы кластеризации

4. Задача классификации

5. Обработка текстов, Naive Bayes

6. Линейные модели для классификации и регрессии

7. Машина опорных векторов

8. Методы снижения размерности пространства

9. Алгоритмические композиции

Все 13 лекций доступны по ссылке:

https://vk.com/videos-54530371?section=album_56085995

2017-02-20 10:34

Интересные алгоритмы кластеризации, часть вторая: DBSCAN


Кластеризация

Углубимся ещё немного в малохоженные дебри Data Science. Сегодня в очереди на препарацию алгоритм кластеризации DBSCAN. Прошу под кат людей, которые сталкивались или собираются столкнуться с кластеризацией данных, в которых встречаются сгустки произвольной формы — сегодня ваш арсенал пополнится отличным инструментом.

DBSCAN (Density-based spatial clustering of applications with noise, плотностной алгоритм пространственной кластеризации с присутствием шума), как следует из названия, оперирует

2017-02-06 13:34

Интересные алгоритмы кластеризации, часть первая: Affinity propagation


Кластеризация, анализ больших данных

Если вы спросите начинающего аналитика данных, какие он знает методы классификации, вам наверняка перечислят довольно приличный список: статистика, деревья, SVM, нейронные сети… Но если спросить про методы кластеризации, в ответ вы скорее всего получите уверенное «k-means же!» Именно этот золотой молоток рассматривают на всех курсах машинного обучения. Часто дело даже не доходит до его модификаций (k-medians) или связно-графовых методов.

Не то чтобы k-means так уж плох, но его результат почти

2016-12-13 11:25

Математические прогулки


Кластеризация

Математические прогулки

В ходе беседы герой проекта рассказывает о жизни, математике, о математике вокруг нас, о науке в целом, об ученых, о музыке, о поэзии… Все еще не верите, что математика может быть интересной? Тогда скорее гулять!

1. Коллективные эффекты в топологии

2. Кластеризация

3. Изгибаемые многогранники

2016-11-24 12:05

Актуальная математика: Кластеризация


Кластеризация

Это видео было опубликовано на сайте ПостНаука (http://postnauka.ru/). Больше лекций, интервью и статей о фундаментальной науке и ученых, которые ее создают, смотрите на сайте http://postnauka.ru/. ПостНаука - все, что вы хотели знать о науке, но не знали, у кого спросить.

2016-10-24 00:55

Кластеризация с пакетом ClusterR, часть 2


Кластеризация

Эта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette.

Кластерный анализ или кластеризация - задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника

2016-10-03 17:56

YT: зачем Яндексу своя MapReduce-система и как она устроена


большие данные, алгоритмы машинного обучения, Кластеризация

В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных - мы уже о ней рассказывали на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.

Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других

2016-09-26 21:30

Кластеризация с пакетом ClusterR, часть 1


Кластеризация

Эта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette. Кластерный анализ или кластеризация - задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника

2016-08-28 21:45

В тени случайного леса


методы машинного обучения, Кластеризация

1. Вступление

Это небольшой рассказ о практических вопросах использования машинного обучения для масштабных статистических исследований различных данных в Интернет. Также будет затронута тема применения базовых методов математической статистики для анализа данных.

2. Классификация асессором

Асессор очень часто сталкивается с нормально распределёнными наборами данных. Существует правило, согласно которому при нормальном распределении (его называют распределением Гаусса) случайная

2016-07-07 06:15

Natural Language Processing (NLP), обработка естественных языков, — это наука на стыке искусственного интеллекта и компьютерной лингвистики


алгоритмы машинного обучения, искусственный интеллект, искусственные нейронные сети, Кластеризация

Natural Language Processing (NLP), обработка естественных языков, - это наука на стыке искусственного интеллекта и компьютерной лингвистики. И хотя термин этот не настолько популярен сегодня, как Big Data или машинное обучение, все мы сталкиваемся с достижениями NLP каждый день: автоматическим переводом, автозаменой в телефоне, чат-ботами, системами рекомендаций, различными агрегаторами и так далее. Как с помощью методов NLP предсказывать

2016-07-05 20:04

Несовершенство алгоритмов фМРТ поставило под сомнение результаты 40 тысяч научных работ


Головной мозг, Кластеризация

Шведские и британские ученые пришли к выводу, что из-за несовершенства программного обеспечения аппаратов функциональной МРТ (фМРТ) около 40 тысяч научных работ могут иметь ошибочные результаты. Отчет об исследовании опубликован в журнале Proceedings of the National Academy of Sciences.

Принцип действия фМРТ заключается в определении активации отделов мозга при выполнении различных задач по изменению интенсивности кровотока в этих мозговых структурах.

2016-04-14 18:32

Предсказание ухода лояльных игроков в ММО


Кластеризация, big data

В прошлой статье я описал, как мы в Иннове используем data mining для предсказания ухода новичков, только начинающих свой путь в ММОРПГ Aion, на основе логов их действий за пару часов или дней, проведенных в игре. Но у нас также есть и ветераны, посвятившие игре месяцы и годы, и они тоже иногда уходят. Мы уже научились с высокой точностью предсказывать угасание их интереса теми же методами data mining.

Технические детали Ничего не изменилось с прошлой статьи, под датамайнинг у нас

2016-02-10 11:37

Оптимизация планирования доставки грузов. Алгоритм кластеризации k-means (метод K-средних).


Кластеризация

Что такое кластеризация? Это объединение объектов в непересекающиеся группы, называемые кластерами, на основе близости значений их атрибутов (признаков). В результате в каждом кластере будут находиться объекты, похожие по своим свойствам друг на друга и отличающиеся от тех, которые расположены в других кластерах. При этом, чем больше подобие объектов внутри кластера и чем сильнее их непохожесть на объекты в других кластерах, тем лучше кластеризация.

Взгляните на фото .. так выглядит бардак..

2016-01-20 18:35

Параллельные алгоритмы для обработки BigData: подводные камни и непростые решения


анализ больших данных, Кластеризация

Эта публикация написана по материалам выступления AlexSerbul на осенней конференции BigData Conference.

Большие данные - тема модная и востребованная. Но многих по-прежнему отпугивает избыток теоретических рассуждений и некоторый недостаток практических рекомендаций. В этом посте я хочу отчасти заполнить этот пробел и рассказать об использовании параллельных алгоритмов для обработки больших данных на примере кластеризации товарного каталога из 10 млн позиций. К сожалению, когда у вас много