Сегодня (технически уже вчера, выходит) читала семинар в лабе, самое интересное, по классике, вынесу в пост

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Сегодня (технически уже вчера, выходит) читала семинар в лабе, самое интересное, по классике, вынесу в пост. Многие считают, что KMeans есть только в sklearn и пользуются исключительно им. А еще многие считают, что функционал Faiss авторства Facebook заканчивается на поиске k ближайших соседей. И первые, и вторые заблуждаются, читаем и разбираемся: https://arxiv.org/pdf/1702.08734.pdf

Здесь же, пользуясь случаем, привожу сравнение самых популярных библиотек кластеризации в Python. Сравнение делалось на синтетических данных + оценивалось самыми распространенными метриками кластеризации без учителя: использовались индекс Дэвиса–Болдина и индекс Калински-Харабаша. Также, производилось сравнение по времени, скорость работы - как раз то, что побудило меня вообще начать копать информацию по этой теме. Хочу обратить внимание, что HKMeans не является Hierarchical KMeans, как можно было бы ошибочно подумать, а представляет собой реализацию алгоритма Хартигана. По сравнению с классическим алгоритмом Ллойда, который, думаю, знаком каждому читателю, незаслуженно обделенный вниманием алгоритм Хартигана не подвержен ошибке смещения, присущей алгоритму Ллойда. Последнее, как видно по графикам, позволяет HKMeans перформить лучше, чем тот же KMeans из sklearn.


Источник: arxiv.org

Комментарии: