Python: Оптимизация Pandas с помощью категориальных признаков

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Когда в DataFrame есть повторяющиеся строки (например, города, категории, названия), вы можете радикально сократить потребление памяти и ускорить группировки, сортировки и join'ы, если переведёте эти столбцы в категориальный тип.

Этот трюк особенно полезен при работе с миллионами записей — вы получите ускорение до 5–10 раз без единой строчки Cython.

Ни NumPy, ни Arrow не дадут такой простой выгоды «из коробки».


Источник: vk.com

Комментарии: