Подборка инструментов для работы с Big Data

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Drill - (https://drill.apache.org/) акладывается поверх множества источников данных, позволяя пользователям запрашивать широкий спектр информации в различных форматах, от Hadoop-файлов последовательностей и журналов сервера до баз данных NoSQL и облачных хранилищ объектов.

Druid (https://druid.apache.org/) - это аналитическая база данных реального времени, обеспечивающая низкую задержку запросов, высокий параллелизм, многопользовательские возможности и мгновенную видимость потоковых данных. По словам ее сторонников, несколько конечных пользователей могут одновременно запрашивать данные, хранящиеся в Druid, без какого-либо воздействия на производительность.

HPCC Systems (https://hpccsystems.com/)— это платформа обработки больших данных, разработанная компанией LexisNexis и получившая открытый исходный код в 2011 году. В соответствии со своим полным названием — High-Performance Computing Cluster — технология по своей сути представляет собой кластер компьютеров, созданный на основе стандартного аппаратного обеспечения для обработки, управления и доставки больших данных.

Iceberg (https://iceberg.apache.org/)- это открытый формат таблицы, используемой для управления данными в озерах, что частично достигается путем отслеживания отдельных файлов с информацией в таблицах, а не в каталогах. Созданная компанией Netflix для использования со своими таблицами петабайтного размера, Iceberg теперь является проектом Apache. Iceberg обычно "используется в продакшне, где одна таблица может содержать десятки петабайт данных".

Kylin (https://kylin.apache.org/)— это распределенное хранилище информации и аналитическая платформа для больших данных. Она предоставляет механизм аналитической обработки информации (OLAP), предназначенный для работы с очень большими массивами данных. Поскольку Kylin построена на базе других технологий Apache, включая Hadoop, Hive, Parquet и Spark, то она, по словам ее сторонников, может легко масштабироваться для обработки больших объемов данных.

Samza (https://samza.apache.org/)— это система распределенной обработки потоков, созданная компанией LinkedIn и являющаяся в настоящее время проектом с открытым исходным кодом под управлением Apache. Система может запускаться поверх Hadoop YARN или Kubernetes, также предлагается вариант автономного развертывания. Согласно информации от разработчиков, Samza может обрабатывать "несколько терабайт" информации о состоянии данных с низкой задержкой и высокой пропускной способностью для быстрого анализа.


Источник: drill.apache.org

Комментарии: