Словарь современных терминов Data Science |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-04-07 04:31 Statistica — универсальная система анализа данных и дейта сайнс, содержащая как классические, так и современные методы анализа данных, доступные пользователям в удобном диалоговом режиме. Apache Spark — мощный движок обработки исходного кода, основанный на скорости, простоте использования и сложной аналитике с API-интерфейсами в Java, Scala, Python, R и SQL. Spark запускает программы до 100 раз быстрее, чем Apache Hadoop MapReduce в памяти, или в 10 раз быстрее на диске. Может использоваться для создания приложений данных в виде библиотеки или для интерактивного анализа данных ad hoc. Spark предоставляет стек библиотек, включая SQL, DataFrames и Datasets, MLlib для машинного обучения, GraphX для обработки графов и Spark Streaming. Вы можете объединить эти библиотеки в одном приложении. Кроме того, Spark работает на ноутбуке, Apache Hadoop, Apache Mesos, автономно или в облаке. Он может обращаться к различным источникам данных, включая HDFS, Apache Cassandra, Apache HBase и S3. CART — Classification and regression trees — деревья классификации и регрессии. Алгоритм Classification and Regression Tree разработан Leo Breiman, Jerry Friedman, Charles Stone и Richard Olshen. Алгоритм строит бинарные деревья, имеющие двух потомков в каждом узле дерева. На каждом шаге построения дерева правило, формируемое в узле, делит заданную обучающую выборку на две части – часть, в которой выполняется правило (левый потомок) и часть, в которой правило не выполняется (правый потомок). Для выбора оптимального правила разбиения используется функция оценки качества разбиения. Функция оценки качества разбиения основана на идее уменьшения неопределенности в узле. Дерево решений с непрерывными выходными значениями называется деревом регрессии, деревья классификации выводят конкретные категориальные значения. В дереве имеется один особый узел, известный как корневой. Это основа дерева, от которой можно перейти по дереву к любому узлу. Ключевым моментом является иерархия разбиений. В результате последовательности проверок организуется процесс разбиения данных на непересекающиеся подмножества. Каждый листовой узел соответствует небольшой, но исключительной (неповторяющейся) части исходного множества. F-распределение Фишера — вытянутое вправо непрерывное распределение, характеризующееся степенями свободы числителя и знаменателя. Используется в дисперсионном анализе. P-значение — вероятность получения наших результатов или чего-либо большего, если нулевая гипотеза верна; уровень значимости. R2 — коэффициент детерминации, доля общей дисперсии зависимой переменной в регрессионном анализе, которая объясняется моделью. Structures Query Language (SQL) — язык программирования, разработанный для управления и извлечения данных из системы реляционных баз данных. t-распределение — также называется распределением Стьюдента. Непрерывное распределение, чья форма подобна нормальному распределению и которое характеризуется своей степенью свободы. Используется для проверки гипотез о средних значениях выборки. TensorFlow™ — программная библиотека с открытым исходным кодом для высокопроизводительных численных расчетов. Гибкая архитектура позволяет развертывать вычисления на различных платформах (процессорах, графических процессорах, TPU), от настольных компьютеров до кластеров серверов, мобильных и периферийных устройств. Обеспечивает поддержку машинного обучения и глубокого обучения, гибкое ядро для численных вычислений используется во многих других научных областях. Алгоритм градиентного бустинга (boosting — улучшение, xgboost) — процедура последовательного построения композиции алгоритмов машинного обучения с целью улучшения качества классификации или предсказательной силы модели. Асимметричное распределение — асимметричное распределение данных имеет длинный хвост справа с несколькими высокими значениями (положительно скошенное) или длинный хвост слева с несколькими низкими значениями (отрицательно скошенное). Байесовский метод вывода — вывод на основе теоремы Байеса, использует не только текущую информацию, но и прежнее суждение о гипотезе для оценки апостериорной вероятности, оценивающей уровень доверия к гипотезе после наблюдаемых событий. Большие данные (Big Data) — включает в себя стратегии, технологии и информационные системы, направленные на получение, обработку, хранение, анализ и визуализацию сложных структурированных и неструктурированных наборов данных с помощью пакетной обработки, потоковой обработки, NoSQL, HPC, MPP, In-Memory и других. Вариация остатков — вариация переменной, которая остаётся после того, как удалена вариабельность, относящаяся к интересующим нас факторам. Это вариация, не объяснимая моделью, также называется «ошибочная, или необъяснённая, вариация». Вероятностные модели. Вероятностная модель представляет собой математическое представление случайного события. Он определяется пространством элементарных событий и вероятностью событий. Выборка обучающая (training sample) — выборка, на которой производится обучение алгоритма, в частности, нейронной сети с целью минимизации заданной функции потерь. Выборка проверочная (validation sample) — выборка, на которой осуществляется проверка модели из множества моделей, построенных по обучающей выборке и выбирается лучшая модель. Диаграмма «стебель-листья» — полуграфический метод, используемый для представления числовых данных, в котором первая (крайняя слева) цифра каждого значения данных является стеблем, а остальные цифры числа — это листья. Интерквартильный размах — разница между первым и третьим квартилем (IQR). Клетка таблицы сопряжённости — пересечение отдельной строки и отдельного столбца таблицы сопряженности. Матрица ошибочной классификации алгоритма машинного обучения является типичным примером таблицы сопряженности, в которой на диагонали указано число правильно классифицированных объектов, вне диагонали число ошибочно классифицированных объектов. Коллинеарность — пары независимых переменных в регрессионном анализе высоко коррелируют, если их корреляции по модулю близки к единице. Критерий отношения дисперсий — F-критерий Фишера-Снедекора, используется для проверки гипотез о равенстве дисперсий в популяции. Критерий хи-квадрат Пирсона: используется в частотных данных. Он проверяет нулевую гипотезу, что нет связи между факторами, которые определяют таблицу сопряженности. Также применяется для тестирования разницы в долях (пропорциях) данных. Лог-нормальное распределение — вытянутое вправо распределение вероятности непрерывной случайной переменной, чей логарифм подчиняется нормальному распределению. Метод наименьших квадратов (МНК) – метод оценки параметров в регрессионном анализе, основанный на минимизации суммы квадратов остатков. Межквартильный размах – интервал между 25-й и 75-й процентилями; он содержит центральные 50% упорядоченных значений. Непараметрический критерий – критерий проверки гипотез, который не делает предположений о распределении анализируемых данных. Иногда называется критерием, свободным от распределения. Несмещенная оценка - для того чтобы оценка была несмещенной, требуется, чтобы в среднем оценка дала истинное значение неизвестного параметра. Формально оценка X является несмещенной оценкой параметра ?, если E(X) = ?. Номограмма Альтмана – диаграмма, которая устанавливает связь размера выборки, мощности статистического критерия, уровень значимости и стандартизированную разность. Перекрёстные исследования – исследования, в которых каждый исследуемых пациент получает более одного вида лечения, одно за другим в случайном порядке. Пересечение множеств - пересечение множеств A и B, обозначаемых A B, является множеством элементы, которые находятся как в A, так и в B. Пуассоновская регрессия В пуассоновской регрессии предполагается, что зависимая переменная распределена по закону Пуассона где ? = E( Y | X ) – среднее значение зависимой переменной Y при известных значениях независимых переменных X. В качестве функции связи обычно используется логарифм, также степенную и тождественную функцию. Размер выборки — это количество элементов в выборке. Размер выборки является важной величиной, при увеличении размера выборок точность оценок увеличивается. Однако мы не можем увеличивать размер выборки до бесконечности, так это связано с временными и финансовыми затратами. Разнообразие Больших Данных (Big Data Variety). Разнообразие относится к типу и характеру данных. Это помогает людям, которые анализируют его, эффективно использовать полученную информацию. Сезонная вариация – значение интересующей нас переменной систематически изменяются согласно времени года. Сериальная корреляция – корреляция между наблюдениями во временных сериях и наблюдениями, отделёнными между собой фиксированным временным интервалом. Событие - подмножество пространства выборки. Например, пространство для эксперимента, в котором дважды бросается монета, определяется {ОО, ОР, РО, РР} и A = {ОР, ОО}, тогда A событие, в котором Орел встречается в первую очередь. Статистический критерий Вальда - применяется в логистической регрессии для проверки вклада отдельного коэффициента регрессии. Форест-график – диаграмма, применяемая в метаанализе и показывающая оценённый эффект в каждом исследовании и их среднее с доверительными интервалами. Хи-квадрат критерий: используется для проверки гипотезы об отсутствии между факторами в таблице сопряжённости. Также используется для проверки различий между пропорциями (долями) в данных, проверки однородности. Цензурированные (неполные) данные используются в анализе выживаемости, поскольку имеется неполная информация об исходе лечения. Также используются в оценке надежности технических систем. Ящик с усами - диаграмма, построенная из набора числовых данных, в центре которой находится медиана, по сторонам ящика – квартили, далее максимальные и минимальные значения. Источник: m.vk.com Комментарии: |
|