Кластеризация

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, рбработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
птичий грипп

Новостная лента форума ailab.ru

Последние новости

 

Главные новости

2017-06-01 18:36

Летняя школа по сетевому анализу


Кластеризация

Специально для тех, кто еще не разобрался в сетевом анализе!

19-23 июня НИУ ВШЭ проведет VII международную летнюю школу «Теория и методы сетевого анализа» (TMSA-2017).

Тема школы этого года — «Кластеризация сетевых данных: методы и применение».

Первая часть курса посвящена наиболее часто используемым подходам кластеризации, которые реализованы в большинстве статистических программ (R, SPSS, SAS и др.).

Во второй части курса будут представлены кластеринг с реляционным

2017-05-09 20:17

Смешанные регрессионные модели в R — Иван Иванчей


Кластеризация

Смешанные регрессионные модели в R — Иван Иванчей

Классические методы статистического вывода часто требуют сбалансированных по условиям независимых наблюдений. Однако на практике мы постоянно сталкиваемся с разного рода зависимостями в данных: повторными измерениями, кластеризацией наблюдений, несбалансированностью сравниваемых условий. Это может привести к ненадёжным выводам. Один из самых эффективных способов борьбы с такими неприятностями — регрессионные модели, учитывающие отдельно

2017-01-24 12:02

Что делать, когда геоданных много, а визуализировать их надо


Кластеризация

С ростом объемов данных и необходимости их визуализации зачастую возникает проблема их переполненности и невозможности визуализировать все и везде. James Milner собрал способы визуализировать большое количество геоданных на картах, которые делают их не только более информативными, но и просто красивыми.

Первый способ “улучшить” карту с кучей геоданных - кластеризация. Это довольно классический метод сокращения данных путем группировки точек разного уровня. Например, объединение по

2017-01-13 06:02

Алексей Савватеев. Теоретико-игровая модель глубокого социального раскола


Семинары, Кластеризация

АЛЕКСЕЙ САВВАТЕЕВ "BREXIT, ТРАМП И УКРАИНСКИЙ КОНФЛИКТ НА ЯЗЫКЕ МАТЕМАТИКИ: ТЕОРЕТИКО-ИГРОВАЯ МОДЕЛЬ ГЛУБОКОГО СОЦИАЛЬНОГО РАСКОЛА". ЛЕКЦИЯ В ИМЭИ ИГУ 14.12.2016

Популярная лекция об играх дискретного выбора на социальных сетях. Физики работают с данным инструментарием достаточно давно, но именно при моделировании поведения людей, зависящего от окружения, эта задача становится по-настоящему сложной и интересной. Как распространяется общественное мнение и эпидемии и можно ли этому

2017-01-09 09:35

Необычные открытия новосибирских ученых 2016 года


Кластеризация

Биоинформатик приняла участие в создании первой 3D-модели вируса Зика

Кандидат биологических наук Анастасия Бакулина из Новосибирского государственного университета приняла участие в создании компанией Visual Science первой подробной 3D-модели вируса Зика. Построенная на основе научных данных модель вируса сможет помочь ученым в разработке диагностики и вакцины против лихорадки, вызываемой тропическим вирусом.

Археологи сообщили о находке Ларгинской писаницы в Забайкалье Ларгинская

2017-01-06 12:21

Старение начнут предсказывать по 26 биомаркерам


Кластеризация, анализ больших данных

Американские ученые разработали метод системного анализа старения организма на основе 26 биомаркеров. Результаты исследования представлены в журнале Aging Cell.

Одним из последствий роста средней продолжительности жизни в XX веке стало демографическое старение населения. При этом известно, что в зависимости от средовых, наследственных и эпигенетических факторов процессы биологического старения у отдельных индивидов протекают по-разному. Поэтому ученые ищут универсальные способы повышать

2017-01-05 19:24

Алексей Савватеев "Игры дискретного выбора на социальных сетях"


Кластеризация

VI ШКОЛА МАСЭП (КРЫМ, 22-26 ИЮЛЯ 2016): АЛЕКСЕЙ САВВАТЕЕВ "ИГРЫ ДИСКРЕТНОГО ВЫБОРА НА СОЦИАЛЬНЫХ СЕТЯХ"

Физики (достаточно вспомнить модель Изинга) работают с данным инструментарием достаточно давно, но именно при моделировании поведения людей, зависящего от окружения, эта задача становится по-настоящему сложной и интересной. Как распространяется общественное мнение и эпидемии и можно ли этому препятствовать, как товары входят в моду и как формируются политические блоки и коалиции – лишь

2016-12-30 08:23

Алексей Савватеев "Brexit на языке математики"


Семинары, Кластеризация

АЛЕКСЕЙ САВВАТЕЕВ "BREXIT НА ЯЗЫКЕ МАТЕМАТИКИ" (ЛЕКЦИЯ В УНИВЕРСИТЕТЕ ДМИТРИЯ ПОЖАРСКОГО 13 ОКТЯБРЯ 2016)

Алексей Савватеев об играх дискретного выбора на социальных сетях. Физики (достаточно вспомнить модель Изинга) работают с данным инструментарием достаточно давно, но именно при моделировании поведения людей, зависящего от окружения, эта задача становится по-настоящему сложной и интересной. Как распространяется общественное мнение и эпидемии и можно ли этому препятствовать, как товары

2016-12-26 10:03

Анализ одной атаки


Кластеризация

Некоторые выводы об интернет-троллях Ситуация с приостановкой Рособрнадзором лицензии на образовательную деятельность Европейского университета в Санкт-Петербурге (ЕУ) три недели назад вызвала в СМИ массу публикаций, как направленных на его поддержку, так и явно негативно окрашенных по отношению к вузу. ЕУ – вуз частный и очень независимый в плане проводимых исследований. Именно эта несистемность кому-то может не нравиться, что и нашло свое отражение в освещении ситуации. Вуз даже официально

2016-11-19 17:59

Подведены итоги первого конкурса VK Testing Challenge.


ИТ-гиганты, Кластеризация

Мы получили 30459 заявок на участие, 5736 из которых были одобрены. 2846 человек отправили как минимум один баг-репорт, общее количество отчетов в конкурсном баг-трекере перевалило за 15000.

Для поиска дубликатов мы использовали методы NLP на основе нейронных сетей и алгоритмы кластеризации. Количество баллов за каждый отчет зависело от приоритета бага, актуальности и корректности описания. За ошибочный выбор приоритета оценка снижалась, баллы за пожелания не начислялись. После подсчета

2016-11-16 15:36

Семантика саи


Кластеризация

Семантическое ядро, составление семантики и кластеризация поисковых запросов, именно на эту тему подготовил доклад Артур Латыпов.

Ни для кого не секрет, что правильно составленное семантическое ядро, это один из главнейших факторов при продвижении сайта. Подобрать запросы это еще не все, необходимо правильно подбирать семантику для сайта, в нынешних реалиях, помимо основных запросов, необходимо собрать пул дополнительных запросов и провести их тщательную кластеризацию. Знание о кластерах

2016-11-14 14:25

Типы закономерностей, выявляемых методами Data Mining


большие данные, Кластеризация

Типы закономерностей, выявляемых методами Data Mining

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных

2016-10-31 16:01

Canon помогает открывать новые галактики


Кластеризация

Когда Астроном Pieter van Dokkum способы изучения галактик, он обратился к оборудованию, с которым был знаком как фотограф-любитель. Благодаря некоторым передовым оптическим решениям ему и его команде исследователей удалось обнаружить ранее невидимые галактики.

В 2011 году Pieter van Dokkum и профессор Roberto Abraham обсуждали способы запечатления рассеивающегося космического света, который не улавливают такие телескопы, как Hubble. Pieter van Dokkum обратился к своему потребительскому

2016-10-05 15:30

Работа с Big Data при помощи GPU: ускорение работы баз данных в десятки раз05.10.2016 12:33


Кластеризация, искусственные нейронные сети

Уже несколько лет дата-центры многих компаний работают с вычислениями с ускорением на GPU. Наша компания сейчас изучает этот вопрос, поскольку такой тип вычислений становится все более востребованным. Так, вычисления с ускорением на GPU можно (и нужно) использовать для ускорения требовательных к ресурсам приложений, созданных для работы в таких сферах, как глубокое обучение, аналитика и проектирование. Этот метод используют

2016-09-27 17:36

Анализ госзакупок показывает, что треть из них проходит по завышенным ценам


Кластеризация

Потери бюджета от завышения цен при госзакупках только в открытой части составляют не менее 1,5-2 трлн руб. в год. Проверив эти оценки с помощью программы анализа больших массивов данных "Антирутина", корреспондент "Денег" обнаружил материал для как минимум полутора миллионов антикоррупционных дел.

ВЛАДИМИР РУВИНСКИЙ

Переплата за товары и услуги на госзакупках в 2015 году составила в среднем 16%, следует из контент-анализа сделок на сайте "Госзакупки", проведенного проектом "Антирутина".

2016-09-25 16:36

Быстрые данные против больших: как скорость обработки информации меняет бизнес и общество


Кластеризация, big data

Данные сегодня настолько «большие», что важно уже не просто обеспечить их хранение, а научиться оперативно обрабатывать и использовать эти массивы. По оценке аналитиков из IDC, к 2019 году рынок данных вырастет на 50% до $187 млрд. Это говорит о растущих потребностях компаний в решениях, которые помогут извлечь пользу из накопленных данных.

Возникает вопрос - как сделать так, чтобы это происходило в режиме реального времени. Данную задачу ставят перед собой разработчики ПО на базе

2016-09-25 14:36

Программное обеспечение для кластеризации людей, имеющих общие участки в аутосомной ДНК


Теория эволюции, Кластеризация

Дмитрий Русаков, Мария Краснова

При анализе списков родственников по аутосомной ДНК одной из главных сложностей является определение того, по какой из предковых линий происходит пересечение с тем или иным человеком. Особенно критично эта проблема встает в тех ситуациях, когда, из-за отсутствия генетического материала или нехватки денежных средств, отсутствует возможность протестировать предков или родственников персоны, по которой ведется исследование.

Для решения данной проблемы было

2016-09-02 13:20

Большинство математиков происходят из 24 научных "семей", самая старая из которых, и имеющая 56387 потомков, берет начало в пятнадцатом веке


Кластеризация, образование

Большинство математиков происходят из 24 научных "семей", самая старая из которых, и имеющая 56387 потомков, берет начало в пятнадцатом веке.

Такие выводы были получены в ходе анализа проекта "Математическая генеалогия" (Mathematics Genealogy Project). Это сетевая база данных, которая выдаёт академическую родословную конкретного математика, как современного, так и жившего в прошлые века.

Иными словами, проект стремится создать "родословные" по принципу учитель-ученик. Например,

2016-08-31 19:09

Разрыв и кластеризация свободнопадающего гранулированного потока


Кластеризация

Поток, состоящий из стеклянных гранул диаметром около 107 мкм свободно падает из отверстия диаметром 4 см. За всем этим наблюдает высокоскоростная камера, которая записывает происходящее со скоростью 1000 кадров/с.

2016-07-26 00:15

Обнаружена аномалия в расширении Вселенной


Кластеризация

Международная группа исследователей, работающих в астрономической службе The Baryon Oscillation Spectroscopic Survey, обнаружила парадокс, который может служить свидетельством аномальных свойств темной энергии.

На это указывает расхождение в показателях скорости расширения Вселенной, полученных с помощью разных методов. Препринт статьи опубликован в репозитории bioRxiv.

Согласно полученным данным, Вселенная расширяется со скоростью в 67 километров

2016-07-24 19:43

За Плутоном заподозрили существование двух суперземель


Кластеризация

Астрономы Карлос и Рауль де ла Фуэнте Маркос в очередной раз предположили существование за пределами орбиты Плутона двух крупных суперземель. Исследование ученых доступно на сайте arXiv.org и принято к публикации в журнале Monthly Notices of the Royal Astronomical Society.

Ученые связали наблюдаемую кластеризацию перигелиев (ближайшая к Солнцу точка орбиты) семи объектов, расположенных за орбитой Нептуна, с гравитационным влиянием Планеты Х. К своим выводам ученые пришли, проведя компьютерное

2016-07-05 15:05

Статистический анализ биомедицинских данных (Михаил Пятницкий)


Семинары, Кластеризация, большие данные, распознавание образов

Пока мы готовимся к летней школе по биоинформатике 2016, которая начнется через 20 дней, предлагаем посмотреть видеозапись лекции с прошлого года!.

Михаил Пятницкий в лекции «Статистический анализ биомедицинских данных» рассказывает о практических аспектах анализа '-омиксных' данных. В частности, описывает методики разведочного анализа, распознавания образов и кластерного анализа.

2016-06-21 15:00

Яндекс про сервисы кластеризации запросов


Кластеризация

Фрагмент видео с пятой вебмастерской, где Михаил Сливинский (руководитель службы по работе с вебмастерами) озвучил отношение поисковой системы Яндекс к «так называемым» сервисам по кластеризации (группировке) запросов, на основе выдачи поисковых систем. А также едко прошелся по рекомендациям в стиле «эти запросы необходимо продвигать на разных страницах».

2016-05-30 12:55

35 ЛУЧШИХ ИНСТРУМЕНТОВ ДЛЯ ВИЗУАЛИЗАЦИИ ДАННЫХ


Кластеризация, анализ больших данных

35 ЛУЧШИХ ИНСТРУМЕНТОВ ДЛЯ ВИЗУАЛИЗАЦИИ ДАННЫХ

ПОДЕЛИСЬ СДРУЗЬЯМИ!

Часто говорят, что данные – это новая мировая валюта, а интернет – это пункт обмена, где ей торгуют. Мы, потребители, буквально плаваем в море информации, начиная от лейблов на упаковках продуктов и заканчивая отчётами Всемирной Организации Здравоохранения. В результате дизайнерам крайне сложно представить данные таким образом, чтобы они выделялись в общем потоке информации.

Одним из лучших способов донесения нужной

2016-04-25 20:08

Поле битвы - соцсети


Кластеризация

Деструктивная пропаганда и дезинформация издавна составляют арсенал военно-политических методов государств наряду с классическим оружием. Информационные атаки способствуют слому морального духа и подрыву единства внутри общества. В результате еще до начала масштабных боевых действий население не готово к консолидированному сопротивлению. Высшее искусство ведения войны, к которому когда-то призывал Сунь-цзы, - покорить чужую армию, не сражаясь.

Главным оружием в информационной войне становятся
 

2017-05-17 19:40

Анализ взаимосвязи навыков с помощью графов в R


big data, Кластеризация, алгоритмы машинного обучения

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.

Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов,

2017-05-15 16:32

Прикладное применение задачи нелинейного программирования


Кластеризация, теория программирования

В свое время, будучи студентом младших курсов, я начал заниматься научно-исследовательской работой в области теории оптимизации и синтеза оптимальных нелинейных динамических систем. Примерно в то же время появилось желание популяризировать данную область, делиться своими наработками и мыслями с людьми. Подтверждением этому служит пара-тройка моих детских незрелых статей на Хабре. Тем не менее, на тот момент эта идея оказалась для меня непосильной. Возможно ввиду моей занятости, неопытности,

2017-05-14 19:41

Рост автономных платформ обработки данных или еще раз про Big Data


анализ больших данных, Кластеризация

Большие данные сегодня, ну, БОЛЬШИЕ. В исследовании IDC за 2016 год под названием «Полугодовое руководство по расходам на большие данные и аналитику» прогнозируется, что общемировой оборот на больших данных вырастет со $130 млрд в 2016-м до более чем $203 млрд в 2020-м, то есть совокупный годовой рост будет на уровне 11,7%. По мнению IDC, росту способствуют три фактора: увеличение доступности гигантских объёмов данных, богатый ассортимент развивающихся open source-технологий для работы с

2017-04-29 11:32

Алгоритмы интеллектуального анализа данных


нейросеть пример, Кластеризация

Рассказывает Рэй Ли, автор блога raily.net

Сегодня я постараюсь простым языком объяснить 10 самых важных алгоритмов интеллектуального анализа данных, по результатам  опросов трех разных групп экспертов в этом исследовании.

После того, как я расскажу вам об этих алгоритмах, о том как они работают, что делают и где их можно найти, я надеюсь, что вы используете свои новоприобретенные знания для еще более глубокого изучения добычи данных.

Что он делает? C4.5 создает классификатор в

2017-04-10 14:50

Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация


Кластеризация, методы машинного обучения

Привет всем! Приглашаем изучить седьмую тему нашего открытого курса машинного обучения!

Данное занятие мы посвятим методам обучения без учителя (unsupervised learning), в частности методу главных компонент (PCA — principal component analysis) и кластеризации. Вы узнаете, зачем снижать размерность в данных, как это делать и какие есть способы группирования схожих наблюдений в данных. Список статей серии

Первичный анализ данных с Pandas Визуальный анализ данных c Python Классификация,

2017-04-03 18:10

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков


методы машинного обучения, Кластеризация, реализация нейронной сети, большие данные

Сообщество Open Data Science приветствует участников курса!

В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель,

2017-03-19 16:06

Лекция 1: Задачи Data Mining


Кластеризация, big data

Алгоритмы интеллектуальной обработки больших объемов данных

1. Задачи Data Mining

2. Задача кластеризации и ЕМ-алгоритм

3. Различные алгоритмы кластеризации

4. Задача классификации

5. Обработка текстов, Naive Bayes

6. Линейные модели для классификации и регрессии

7. Машина опорных векторов

8. Методы снижения размерности пространства

9. Алгоритмические композиции

Все 13 лекций доступны по ссылке:

https://vk.com/videos-54530371?section=album_56085995

2017-03-09 21:51

Обзор алгоритмов кластеризации данных


Кластеризация

В своей дипломной работе я проводил обзор и сравнительный анализ алгоритмов кластеризации данных. Подумал, что уже собранный и проработанный материал может оказаться кому-то интересен и полезен. О том, что такое кластеризация, рассказал sashaeve в статье «Кластеризация: алгоритмы k-means и c-means». Я частично повторю слова Александра, частично дополню. Также в конце этой статьи интересующиеся могут почитать материалы по ссылкам в списке литературы.

Так же я постарался привести сухой

2017-02-20 10:34

Интересные алгоритмы кластеризации, часть вторая: DBSCAN


Кластеризация

Углубимся ещё немного в малохоженные дебри Data Science. Сегодня в очереди на препарацию алгоритм кластеризации DBSCAN. Прошу под кат людей, которые сталкивались или собираются столкнуться с кластеризацией данных, в которых встречаются сгустки произвольной формы — сегодня ваш арсенал пополнится отличным инструментом.

DBSCAN (Density-based spatial clustering of applications with noise, плотностной алгоритм пространственной кластеризации с присутствием шума), как следует из названия, оперирует

2017-02-06 13:34

Интересные алгоритмы кластеризации, часть первая: Affinity propagation


Кластеризация, анализ больших данных

Если вы спросите начинающего аналитика данных, какие он знает методы классификации, вам наверняка перечислят довольно приличный список: статистика, деревья, SVM, нейронные сети… Но если спросить про методы кластеризации, в ответ вы скорее всего получите уверенное «k-means же!» Именно этот золотой молоток рассматривают на всех курсах машинного обучения. Часто дело даже не доходит до его модификаций (k-medians) или связно-графовых методов.

Не то чтобы k-means так уж плох, но его результат почти

2017-02-04 20:39

Кластеризация дубликатов в Яндекс.Картинках


it новости, Кластеризация

Сегодня в клубе Яндекс.Субботник появилось интересное видео о том, как Яндекс обрабатывает изображения для исключения дубликатов. Рассказывает Александр Крайнов: он с 2000 года занимается проектами, связанными с обработкой медиаданных. В Яндексе отвечает за проекты, в которых задействовано компьютерное «зрение».

О докладе

Легко найти дубликаты среди тысяч картинок. Сложнее – среди миллионов. И совсем трудно – среди миллиардов. Чем выше полнота работы алгоритма, тем больше проблем. Но в то же

2017-02-02 14:06

Задача кластеризации


большие данные, Кластеризация, методы машинного обучения

- Лекция 1: Задачи Data Mining - Лекция 2: Задача кластеризации и ЕМ-алгоритм - Лекция 3: Различные алгоритмы

2017-01-04 14:02

Мир полон вероятностей и неопределенностей, но понять природу случайности дано не каждому


Кластеризация

Мир полон вероятностей и неопределенностей, но понять природу случайности дано не каждому. Если подброшенная монета 5 раз выпала орлом, чего следует ожидать при следующем броске? Если ваш ответ “решка”, подумайте снова. Орлы и решки равновероятны, у случайных событий нет памяти о том, что случилось прежде.

Даже лучшие математики заблуждались относительно закономерностей случайных явлений. Понадобились века, чтобы в них разобраться.

Простая задача: в семье два ребенка и известно, что

2016-12-13 11:25

Математические прогулки


Кластеризация

Математические прогулки

В ходе беседы герой проекта рассказывает о жизни, математике, о математике вокруг нас, о науке в целом, об ученых, о музыке, о поэзии… Все еще не верите, что математика может быть интересной? Тогда скорее гулять!

1. Коллективные эффекты в топологии

2. Кластеризация

3. Изгибаемые многогранники

2016-11-24 12:05

Актуальная математика: Кластеризация


Кластеризация

Это видео было опубликовано на сайте ПостНаука (http://postnauka.ru/). Больше лекций, интервью и статей о фундаментальной науке и ученых, которые ее создают, смотрите на сайте http://postnauka.ru/. ПостНаука - все, что вы хотели знать о науке, но не знали, у кого спросить.

2016-10-24 00:55

Кластеризация с пакетом ClusterR, часть 2


Кластеризация

Эта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette.

Кластерный анализ или кластеризация - задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника

2016-10-03 17:56

YT: зачем Яндексу своя MapReduce-система и как она устроена


большие данные, методы машинного обучения, Кластеризация

В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных - мы уже о ней рассказывали на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.

Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других

2016-09-26 21:30

Кластеризация с пакетом ClusterR, часть 1


Кластеризация

Эта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette. Кластерный анализ или кластеризация - задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника

2016-09-21 18:30

Технологии хранения и обработки больших объёмов данных


Кластеризация

Курс предназначен программистам, желающим познакомиться с теоретическими и практическими аспектам технологий, связанных с хранением, обработкой, анализом больших объёмов данных и использованием их в приложениях. В основном будут рассматриваться технологии, ставшие массовыми относительно недавно, такие как распределённые файловые системы и NoSQL СУБД, но будут также затронуты возможности, предоставляемые привычными реляционных СУБД.

1. Распределённые файловые системы

2. Распределённая

2016-08-28 21:45

В тени случайного леса


алгоритмы машинного обучения, Кластеризация

1. Вступление

Это небольшой рассказ о практических вопросах использования машинного обучения для масштабных статистических исследований различных данных в Интернет. Также будет затронута тема применения базовых методов математической статистики для анализа данных.

2. Классификация асессором

Асессор очень часто сталкивается с нормально распределёнными наборами данных. Существует правило, согласно которому при нормальном распределении (его называют распределением Гаусса) случайная

2016-07-07 06:15

Natural Language Processing (NLP), обработка естественных языков, — это наука на стыке искусственного интеллекта и компьютерной лингвистики


машинное обучение, искусственный интеллект, искусственные нейронные сети, Кластеризация

Natural Language Processing (NLP), обработка естественных языков, - это наука на стыке искусственного интеллекта и компьютерной лингвистики. И хотя термин этот не настолько популярен сегодня, как Big Data или машинное обучение, все мы сталкиваемся с достижениями NLP каждый день: автоматическим переводом, автозаменой в телефоне, чат-ботами, системами рекомендаций, различными агрегаторами и так далее. Как с помощью методов NLP предсказывать

2016-07-05 20:04

Несовершенство алгоритмов фМРТ поставило под сомнение результаты 40 тысяч научных работ


Головной мозг, Кластеризация

Шведские и британские ученые пришли к выводу, что из-за несовершенства программного обеспечения аппаратов функциональной МРТ (фМРТ) около 40 тысяч научных работ могут иметь ошибочные результаты. Отчет об исследовании опубликован в журнале Proceedings of the National Academy of Sciences.

Принцип действия фМРТ заключается в определении активации отделов мозга при выполнении различных задач по изменению интенсивности кровотока в этих мозговых структурах.

2016-04-14 18:32

Предсказание ухода лояльных игроков в ММО


Кластеризация, big data

В прошлой статье я описал, как мы в Иннове используем data mining для предсказания ухода новичков, только начинающих свой путь в ММОРПГ Aion, на основе логов их действий за пару часов или дней, проведенных в игре. Но у нас также есть и ветераны, посвятившие игре месяцы и годы, и они тоже иногда уходят. Мы уже научились с высокой точностью предсказывать угасание их интереса теми же методами data mining.

Технические детали Ничего не изменилось с прошлой статьи, под датамайнинг у нас

2016-02-10 11:37

Оптимизация планирования доставки грузов. Алгоритм кластеризации k-means (метод K-средних).


Кластеризация

Что такое кластеризация? Это объединение объектов в непересекающиеся группы, называемые кластерами, на основе близости значений их атрибутов (признаков). В результате в каждом кластере будут находиться объекты, похожие по своим свойствам друг на друга и отличающиеся от тех, которые расположены в других кластерах. При этом, чем больше подобие объектов внутри кластера и чем сильнее их непохожесть на объекты в других кластерах, тем лучше кластеризация.

Взгляните на фото .. так выглядит бардак..

2016-01-20 18:35

Параллельные алгоритмы для обработки BigData: подводные камни и непростые решения


анализ больших данных, Кластеризация

Эта публикация написана по материалам выступления AlexSerbul на осенней конференции BigData Conference.

Большие данные - тема модная и востребованная. Но многих по-прежнему отпугивает избыток теоретических рассуждений и некоторый недостаток практических рекомендаций. В этом посте я хочу отчасти заполнить этот пробел и рассказать об использовании параллельных алгоритмов для обработки больших данных на примере кластеризации товарного каталога из 10 млн позиций. К сожалению, когда у вас много