Ещё о популярности распределений |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-06-29 11:53 Ещё о популярности распределений. Почему "всегда" мелькают одни и те же распределения: нормальное-гауссово, экспоненциальное, равномерное, Бернулли-полиномиальное, геометрическое — и всякие производные от них вроде Стьюдента, Максвелла и проч., тысячи их? Ну, за нормальное играет Центральная предельная теорема: если случайная величина это сумма многих, то часто (но не всегда) сумма будет более или менее близка к гауссиане. Да. За экспоненциальное и геометрическое выступает их свойство потери памяти: если прошлое не влияет на будущее, то там часто без вариантов одно из этих двух. Но есть и ещё одна веская причина. Энтропия. Обозначим плотность распределения через d(x) и составим функционал энтропии, от неё зависящий: -?ln(d(x))d(x)dx, по всей R. По всей, но сама плотность может декларативно быть равной нулю вне некоторого носителя: отрезка, полупрямой, более сложного множества. Для дискретных с.в. вместо интеграла сумма, а d(x) это дискретный набор значений при натуральных (например) x. И попробуем поискать максимум такого функционала. Для простоты искать будем минимум, а минус в определении уберём. Начнём с простого: дискретная d(x) при х = 0 и 1. Тогда у нас задача такая: ln(d(0))d(0) + ln(d(1))d(1) ? min, d(0) + d(1) = 1. Такую задачу решить несложно и в лоб, но мы прибегнем к методу Лагранжа. Добавим ограничение к функции со "штрафом": ln(d(0))d(0) + ln(d(1))d(1) + m(d(0) + d(1) - 1) ? min. Теперь понятно, из симметрии, что компоненты равны друг другу и распределение равномерное. Вывод верен и в общем случае, если число точек конечно: распределение равномерно. Именно оно доставляет максимум энтропии и именно поэтому так распространено. Упрощённо рассуждая, без особых причин все варианты одинаково хороши и, соответственно, выбираться будут одинаково часто. Но если точек бесконечно много? Например, 0, 1, 2 и т.д. Рассуждение забредает в тупик: все вероятности должны быть равны, но если они все 0, то не получится 1 в сумме, а если они все не нуль, то не получится 1 в сумме. Обычно, когда задача не решается, надо отменить часть ограничений. Но нам нужно, напротив, ограничение добавить. Это похоже на ситуацию поиска положительного минимального числа: решения нет, но нет его потому, что всегда можно улучшить результат. Но если потребовать, чтобы, например, первая цифра была нечётной, то ответ 0.1 сразу есть. Выберем какое угодно (положительное) матожидание E будущего распределения и наложим второе условие. Функция Лагранжа теперь [ ln(d(i))d(i) + m(d(i)-1) + w(id(i) - E) ] ? min. Производная по любому d(i) равна 1 + ln(d(i)) + d + wi = 0, откуда следует, что d(i) это степени с показателем i. Это геометрическое распределение. Именно оно энтропийно и, следовательно, популярно. Можно ещё поиграть с дискретными множествами, но пора переходить к континуумам. Вместо птимизации функций многих переменных будет вариационное исчисление, но самый минимум, ведь функционал не содержит производных. Метод Лагранжа полностью аналогичен. Взяв отрезок, на котором должно юыть задано распределение, приходим, варьируя функционал с ограничением, к равномерному непрерывному распределению. Взяв положительную полуось, полностью аналогично приходим к сестре-близняшке геометрического: экспоненте. Получив ещё и право выбрать матожидание, любое положительное. Но на всей оси фокус не пройдёт: получается, как ни крути, экспонента, а интеграл от неё по R вот никак не может дать единицу. Так что надо ввести ещё ограничение, задав, скажем, дисперсию. Любую положительную. А матожидание вообще любое теперь можно. Вместо дисперсии удобнее задать второй момент Q — это, при наличии матожидания, взаимозаменяемо, хотя, конечно, есть ограничения на выбор. ln(d(x))d(x)dx + m(?d(x)dx - 1) + w(?xd(x)dx - E) + q(?x?d(x)dx - Q). Варьируя (полный аналог дифференцирования в данном случае), получим, что d(x) это экспонента с квадратным трёхчленом наверху. Подбор констант приводит к ... гауссиане. Если мы рассмотрим дискретное множество целых чисел, получим некоторый дискретный аналог гауссианы, который энтропиен, но почему-то встречается реже. Есть ещё варианты, но о них в другой раз. Телеграм: t.me/ainewsline Источник: vk.com Комментарии: |
|