Семь мифов в области исследований машинного обучения |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-03-20 09:15 Для тех, кому лень читать всё: предлагается опровержение семи популярных мифов, которые в области исследований машинного обучения часто считаются истинными, по состоянию на февраль 2019. Данная статья доступна на сайте ArXiv в виде pdf [на английском языке]. Миф 1: TensorFlow – это библиотека для работы с тензорами. Миф 2: Базы данных изображений отражают реальные фотографии, встречающиеся в природе. Миф 3: Исследователи МО не используют проверочные наборы для испытаний. Миф 4: В обучении нейросети используются все входные данные. Миф 5: Для обучения очень глубоких остаточных сетей требуется пакетная нормализация. Миф 6: Сети с вниманием [attention] лучше свёрточных [convolution]. Миф 7: Карты значимости – надёжный способ интерпретации нейросетей. А теперь — подробности.
Миф 1: TensorFlow – это библиотека для работы с тензорами На самом деле, это библиотека для работы с матрицами, и эта разница весьма существенна. На CPU их метод оказался на два порядка быстрее таких популярных библиотек, как TensorFlow, Theano, PyTorch, и HIPS autograd. На GPU они наблюдали ещё большее ускорение, на целых три порядка. Следствия: Вычисление производных для функций второго или более высокого порядка при помощи текущих библиотек глубокого обучения слишком дорого с вычислительной точки зрения. Сюда входят вычисления общих тензоров четвёртого порядка типа гессианов (к примеру, в MAML и ньютоновской оптимизации второго порядка). К счастью, квадратичные формулы встречаются в глубоком обучении нечасто. Однако они часто встречаются в «классическом» машинном обучении – SVM, метод наименьших квадратов, LASSO, гауссовские процессы, и т.п. Миф 2: Базы данных изображений отражают реальные фотографии, встречающиеся в природе Многим нравится думать, что нейросети научились распознавать объекты лучше людей. Это не так. Они могут опережать людей на базах избранных изображений, например, ImageNet, но в случае распознавания объектов с реальных фотографий из обычной жизни они определённо не смогут обогнать обычного взрослого человека. Всё потому, что выборка изображений в текущих наборах данных не совпадает с выборкой всех возможных изображений естественным образом встречающихся в реальности. Так какова же ценность имеющихся наборов данных для обучения алгоритмов, предназначенных для реального мира? Получающийся ответ можно описать, как «лучше, чем ничего, но не сильно». Миф 3: Исследователи МО не используют проверочные наборы для испытаний В учебнике по машинному обучению нас учат делить набор данных на обучающий, оценочный и проверочный. Эффективность модели, обученной на обучающем наборе, и оцененной на оценочном помогает человеку, занимающемуся МО, подстраивать модель для максимизации эффективности при её реальном использовании. К проверочному набору не нужно прикасаться, пока человек не закончит подстройку, чтобы обеспечить непредвзятую оценку реальной эффективности работы модели в реальном мире. Если человек жульничает, используя проверочный набор на этапах обучения или оценки, модель рискует стать слишком сильно приспособленной для определённого набора данных. Миф 4: В обучении нейросети используются все входные данные Принято считать, что данные – это новая нефть, и что чем больше у нас данных, тем лучше мы сможем обучить модели для глубокого обучения, которые сейчас неэффективны по образцам [sample-inefficient] и перепараметризированы [overparametrized]. В работе An Empirical Study of Example Forgetting During Deep Neural Network Learning. Toneva et al. ICLR 2019 авторы демонстрируют значительную избыточность в нескольких распространённых наборах небольших изображений. Удивительно, но 30% данных из CIFAR-10 можно просто убрать, не изменив точность проверки на значительную величину. Гистограммы забываний из (слева направо) MNIST, permutedMNIST и CIFAR-10.Забывание случается, когда нейросеть неправильно классифицирует изображение в момент времени t+1, в то время как в момент времени t ей удалось правильно классифицировать изображение. Течение времени измеряется обновлениями SGD. Чтобы отслеживать забывания, авторы запускали свою нейросеть на небольшом наборе данных после каждого обновления SGD, а не на всех примерах, имеющихся в базе. Примеры, не подверженные забыванию, называются незабываемыми примерами. Они обнаружили, что 91.7% MNIST, 75.3% permutedMNIST, 31.3% CIFAR-10 и 7.62% CIFAR-100 составляют незабываемые примеры. Интуитивно это понятно, поскольку увеличение разнообразия и сложности набора данных должно заставлять нейросеть забывать больше примеров. Забываемые примеры, судя по всему, демонстрируют более редкие и странные особенности, по сравнению с незабываемыми. Авторы сравнивают их с поддерживающими векторами в SVM, поскольку они, кажется, отмечают контуры границ принятия решений. Незабываемые примеры, в свою очередь, кодируют в основном избыточную информацию. Если отсортировать примеры по степени незабываемости, мы сможем сжать набор данных, удалив наиболее незабываемые из них. 30% данных CIFAR-10 можно удалить, не влияя на точность проверок, а удаление 35% данных приводит к небольшому падению точности проверок на 0,2%. Если выбрать 30% данных случайным образом, то их удаление приведёт к значительной потери точности проверки в 1%. Сходным образом из CIFAR-100 можно убрать 8% данных без падения точности проверки. Эти результаты показывают, что в данных для обучения нейросетей существует значительная избыточность, примерно как в SVM-обучении, где не поддерживающие векторы можно убрать, не влияя на решение модели. Последствия: Если мы сможем определить, какие из данных являются незабываемыми, до начала обучения, то мы можем сэкономить место, удалив их, и время, не используя их при обучении нейросети. Миф 5: Для обучения очень глубоких остаточных сетей требуется пакетная нормализация Долгое время считалось, что «обучение глубокой нейросети для прямой оптимизации только для контролируемой цели (к примеру, логарифмической вероятности правильной классификации) при помощи градиентного спуска, начиная со случайных параметров, работает плохо». Миф 6: Сети с вниманием лучше свёрточных В сообществе исследователей МО набирает популярность идея, что механизмы «внимания» превосходят по возможностям свёрточные нейросети. В работе Vaswani и коллег отмечено, что «вычислительные затраты на отделяемые свёртки равны комбинации слоя с самовниманием [self-attention layer] и точечного перематывающего слоя [point-wise feed-forward layer]». Даже передовые генеративно-состязательные сети показывают преимущество самовнимания перед стандартными свёртками при моделировании дальнодействующих зависимостей. Авторы работы Pay Less Attention with Lightweight and Dynamic Convolutions. Wu et al. ICLR 2019 ставят под сомнение параметрическую эффективность и действенность самовнимания при моделировании дальнодействующих зависимостей, и предлагают новые варианты свёрток, частично вдохновлённых самовниманием, более эффективные с точки зрения параметров. «Легковесные» свёртки разделяемы по глубине, софтмакс-нормализованы по временному измерению, разделяют веся по канальному измерению, и повторно используют те же веса на каждом временном шаге (как рекуррентные нейросети). Динамические свёртки – это легковесные свёртки, использующие разные веса на каждом временном шаге. Подобные трюки делают легковесные и динамические свёртки на несколько порядков эффективнее стандартных неразделяемых свёрток. Авторы показывают, что эти новые свёртки соответствуют или превосходят самовнимательные сети в машинном переводе, моделировании языка, абстрактных задачах суммирования, используя при этом столько же или меньше параметров.Миф 7: Карты значимости – надёжный способ интерпретации нейросетей Хотя существует мнение о том, что нейросети – это чёрные ящики, было сделано огромное множество попыток их интерпретации. Наиболее популярными из них служат карты значимости, или другие сходные методы, назначающие оценки важности особенностям или обучающим примерам. В связи со всё большим распространением глубокого обучения в таких критически важных областях применения, как обработка медицинских изображений, важно осторожно подходить к вопросу интерпретации решений, сделанных нейросетями. К примеру, хотя было бы здорово, если бы свёрточная нейросеть могла опознать пятно на МРТ-снимке как злокачественную опухоль, этим результатам не стоит доверять, если они основаны на ненадёжных методах интерпретации. Источник: habr.com Комментарии: |
|