Взгляд на основные тенденции в машинном обучении |
||||||||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-03-24 13:00 Разбираемся, как за последние 5 лет изменились технологии и подходы к работе в машинном обучении на примере исследования Andrej Karpathy. Руководитель отдела машинного обучения в Tesla, Andrej Karpathy, решил выяснить, как развиваются тенденции ML в последние годы. Для этого он воспользовался базой данных документов о машинном обучении за последние пять лет (около 28 тысяч) и проанализировал их. Своими выводами Андрей поделился на Medium. Особенности архива документов Рассмотрим для начала распределение общего числа загруженных документов по всем категориям (cs.AI, cs.LG, cs.CV, cs.CL, cs.NE, stat.ML) в течение времени. Мы получим следующее:
Видно, что в марте 2017 было загружено почти 2000 документов. Пики, которые появляются на графике, вероятно, обусловлены датами конференций, связанных с машинным обучением (NIPS/ICML, например). Общее число бумаг послужит знаменателем. Мы можем посмотреть, какая часть документов содержит интересные нам ключевые слова. Основы глубокого обучения Для начала определим наиболее часто используемые в Deep Learning фреймворки. Для этого найдем бумаги, которые содержат упоминания о фреймворках в любом месте работы (даже если это список используемой литературы). Для марта 2017 получается следующая картина:
Таким образом, 10% всех документов, загруженных в этот период содержат упоминания TensorFlow. Конечно, не в каждой статье будет упоминаться используемое окружение, но если предположить, что в документах такие упоминания встречается с некоторой фиксированной вероятностью, получится, что около 40% членов сообщества машинного обучения использует TensorFlow. А вот картина того, как некоторые из наиболее популярных фреймворков эволюционировали с течением времени:
Можно заметить, что рост популярности Theano замедлился. Caffe быстро взлетел в 2014 году, но уступил в последние годы по популярности TensorFlow. Torch и PyTorch медленно, но верно набирают популярность. Модели ConvNet В этой категории можно видеть всплеск интереса к ResNets (остаточным сетям) – упоминания о них встречаются в 9% всех документов:
Алгоритмы оптимизации Среди алгоритмов оптимизации Adam занимает внушительную долю в 23%. Фактическую долю алгоритма трудно определить, но, вероятно, она выше 23 процентов: не во всех документах упоминаются используемые алгоритмы оптимизации. Автор исследования полагает, что не упомянутая активность алгоритма составляет приблизительно 5% дополнительно.
Исследователи Также любопытно взглянуть на упоминания имен известных исследователей в машинном обучении:
Несколько замечаний: фамилия Bengio упоминается в 35% всех документов, но есть два человека с этой фамилией (Samy и Yoshua). А вот Джефф Хинтон – один, и он упоминается в целых 30% работ. Популярные и непопулярные ключевые слова в машинном обучении Наконец, рассмотрим самые «горячие» и самые непопулярные слова, встречающиеся в исследованиях машинного обучения. Топ популярных Для определения популярности слова автор использовал отношение максимального количества использования этого слова в прошлом году к количеству его упоминаний до 2016 года. Таким образом, получается список наиболее горячих слов:
Видно, что хотя до 2016 года упоминания ResNet составляли всего 1,044 процента от всех документов, в марте 2017 его доля составила 8,53 процента. Отсюда такая высокая позиция (8.53 / 1.044 ~ = 8.17). Топ показывает, что основные новинки пользуются популярностью у исследователей.
Топ непопулярных Давайте взглянем на обратный топ. Что в прошлом году использовалось меньше всего:
Автор отмечает, что не совсем понятно в каком контексте используется «фрактал» – по всей видимости, имеется в виду байесовская оценка решения. Больше материалов по machine learning: Источник: proglib.io Комментарии: |
|||||||