Глубокая Доказательная Регрессия

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Alexander Amini, Wilko Schwarting, Ava Soleimany, Daniela Rus

CSAIL, MIT, Harvard

http://www.mit.edu/~amini/pubs/pdf/deep-evidential-regression.pdf

Какую задачу решают авторы и какова практическая польза?

На практике встречаются ситуации, когда помимо точечного ответа от модели хотелось бы получить её неуверенность в даваемом ответе. Неуверенность ответа модели обычно делят на две составляющие: неуверенность в данных (англ. aleatoric uncertainty) и неуверенность в предсказании (англ. epistemic uncertainty). Одним из способов оценки неуверенности является применение байесовских методов машинного обучения.

При применении такого подхода мы не фиксируемся на одном единственном наборе значений параметров модели, а пытаемся понять вероятность того или иного набора после того, как мы увидели обучающую выборку.

Эта вероятность называется апостериорной и определяется следующим образом

Здесь ? - это параметры модели, X - обучающая выборка. P(?) - наши изначальные представления о вероятности тех или иных наборов значений параметров модели, P(X|?) - вероятность данных при условии тех или иных значений параметров(фактически наша модель машинного обучения).

Зная апостериорную вероятность значений параметров модели, можно вычислять вероятность того или иного ответа и определять нашу неуверенность в предсказании.

К сожалению, сложность численного вычисления (по-другому зачастую никак) интеграла в знаменателе растёт экспоненциально с ростом количества параметров.

Это делает данный подход очень сложно применимым к гибким моделям вроде глубоких нейронных сетей, которые обладают сотней тысяч параметров.

Также для определения неуверенности могут использоваться ансамбли алгоритмов, что тоже долго.

Авторы данной статьи предложили способ построения и последующего обучения нейронных сетей, который по своей скорости обучения и предсказания сравним с обычными (фишеровскими) нейронными сетями, но при этом помимо ответа может давать ещё оценку обоих видов неуверенности в нём(aleatoric и epistemic) в отдельности.

Как решают?

Авторы придерживаются следующей вероятностной модели порождения данных:

— ответы берутся из нормального распределения (в статье называется распределением низшего порядка или распределением правдоподобия(англ. lower order likelihood distribution))

Здесь y1,...,yN - объекты из обучающего множества. Каждый из них, согласно модели, генерируется из нормального распределения с математическим ожиданием ? и стандартным отклонением ?.

— параметры этого распределения имеют своё распределение (в статье называется higher order evidential distribution)

Визуально вероятностная модель выглядит следующим образом

Каждый набор параметров (sample), выбранный из evidential distribution(B) задаёт своё распределение правдоподобия(C).

Задачей нейронной сети является определение апостериорного распределения параметров правдоподобия.

То есть определения параметров evidential distribution, вот этих вот

Зная эти параметры для каждого очередного объекта при предсказании, можно было бы выдавать не только ответы, но и два вида неуверенности(в данных и в предсказании) по следующим формулам(вывод приведён в статье)

(*)

Целевая функция для обучения модели состоит из двух частей

— первая часть

представляет собой отрицательный логарифм от evidence-а (результата голосования различных наборов значений параметров модели с весами, равными их апостериорным вероятностям)

В нашем случае всё было подобрано так, чтобы evidence считался аналитически и был представим в виде распределения Стьюдента

В итоге отрицательный логарифм от evidence-а тоже считается аналитически (без больших вычислительных затрат).

— вторая часть

отвечает за регуляризацию, требует большей неуверенности в случае некорректных ответов. Если присмотреться к формулам неуверенностей в данных и в предсказании (*), то именно параметры v и ? отвечают за то, насколько велика наша неуверенность.

Данный алгоритм был протестирован на различных задачах, где показал неплохое качество и быструю скорость выдачи ответа относительно алгоритмов baseline-ов.

Также алгоритм был протестирован на задаче монокулярного определения глубины и на устойчивость к работе с out-of-distribution и adversarial объектами.

Моё мнение

Интересная и достаточно простая идея. Делаются определённые допущения по поводу распределения ответов модели. Самую заметную проблему в виде неудобного гипер параметра регуляризации авторы сами озвучили в конце.


Источник: m.vk.com

Комментарии: