Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning» |
|||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-10-31 11:48 Привет! Некоторое время назад я взялся написать обзорную статью о том, что такое Deep Learning. Задача не казалась сложной до тех пор, пока… я не добрался до определения. Вот вы можете в двух словах объяснить этот термин, ничего не упустив? Вот то-то и оно. Пока копался в референсах, читал статьи, монографии и книги, я понял, что это вопрос слишком интересный для простого обзора и быстрого ответа. Здесь мне хотелось бы поделиться тем, что удалось найти по поводу истории развития глубокого обучения и того, что с ним связано. Осторожно! В статье много ссылок на англоязычные источники и скриншотов книг / статей на английском. Я предполагаю, что для вас это не станет препятствием. Если хотите пройти со мной этот удивительный путь страданий и поиска истины, welcome. Если же предпочитаете получить быстрый и простой ответ, переходите по оглавлению к разделу «Итого». Используйте навигацию, если не хотите читать текст полностью: ? Поиск истоков термина ? Становление глубокого обучения как новой области исследований ? Зарубежные авторы ? Итого ? Головоломка? Почему головоломка? ? Заключение Поиск истоков термина Берем Становление глубокого обучения как новой области исследований Думаю, уместно будет проговорить, что глубокое обучение, как и любая другая дисциплина, не могла возникнуть сама по себе. На протяжении десятилетий в разных странах и на разных континентах формировалось то, что нынче пугает нас потерей рабочих мест, радикальным изменением структуры общества и прочими страшными историями. Хотя, справедливости ради, стоит сказать, что «пугает» не само глубокое обучение и даже не его разработчики, а скорее те, кто использует его для повышения цен на рекламу благодаря вирусящимся постам (что-нибудь в стиле «ИИ заменит нас в 20NM-ном году»). Интересные источники по теме в сети Итак, снова обратимся к Что из найденного зацепило Из того, что мне больше всего понравилось, я бы выделил «краткую» историю глубокого обучения с 1943 года — «Brief History of Deep Learning from 1943-2019». В ней хронологически описаны работы, которые проложили путь искусственным нейронным сетям. Впрочем, поискав еще какое-то время, я наткнулся на монографию Юргена Шмидхубера, в которой из 88 страниц — а это около ? от всего объема — занимают ссылки на источники. Есть что почитать. ? Отцы и дети Еще любопытнее с «отцовством». Одни утверждают, что «отец Deep Learning» — это Фрэнк Розенблатт, другие называют «крестным отцом» Джеффри Хинтона. Согласно статье Forbes, отец современного ИИ — Юрген Шмидхубер! В том же контексте говорят и о советских ученых. Например, в упомянутой хронологии «отцом DL» авторы зовут Алексея Григорьевича Ивахненко. Перевод: «Ивахненко часто упоминается как отец глубокого обучения».С последней версией, правда, есть небольшая проблема (спойлер: уже нет, но об этом будет ниже). Сложно найти авторитетные источники, которые бы аргументировали эту теорию, а ключевая работа Ивахненко написана в соавторстве с Валентином Григорьевичем Лапой, о котором в сети информации еще меньше. Таким образом, вопрос об «отцовстве» глубокого обучения остается, мягко говоря, непростым. Разумеется, если немного покопаться в сети, то найдутся статьи, в которых «отцом искусственного интеллекта» называют Джона Маккарти. Причем говорится, что его часто называют так, но при этом опять же не очень ясно, кто и где его так называет. Вероятно, потому что на Дартмутской конференции именно Джон предложил термин «искусственный интеллект» и т. д., но все же далеко не только он интересовался данной темой. Это я все к тому, что по данным громким слоганам довольно сложно понять, кто какую роль на самом деле сыграл в становлении искусственного интеллекта и глубокого обучения как области исследований. Но чисто интереса ради поисследовать данные хитросплетения «отцовства» может быть занимательно. Вот еще вопрос на засыпку: если на роль отца кандидатов хоть отбавляй, то кого по-вашему можно было бы предложить на роль матери? У меня есть кандидатура, но предлагаю об этом подискутировать. ? Зарубежные авторы Блуждая по просторам интернета и различным статьям, я пришел к выводу, что «отцы» и «крестные отцы» — просто наиболее популярны с точки зрения упоминаний, слишком «SEO-шные». Нужно что-то другое. Christopher M. Bishop По воле случая в первую очередь попалась книга «Neural Networks for Pattern Recognition» от Кристофера М. Бишопа: Источник.Вот что интересно: автор применяет термин «deep learning» целых… ноль раз. Отличное начало, не так ли? Кстати, мистер «H» из небезызвестного LBH! Если вкратце, то это аббревиатура, составленная из первых букв фамилий тройки широко известных в уже не очень-то и узких кругах исследователей: Яна Лекуна, Джошуа Бенджио и Джеффри Хинтона. LBH Вот уж кто-кто, а «крестный отец ИИ» точно объяснил, что такое DL. Обратимся к небольшому тексту «??Deep Learning for AI»: Здесь авторы говорят, что «кратко объяснят происхождение глубокого обучения».Кажется, что «briefly describe the origins of deep learning» — это то, что нужно. Но на самом деле статья не отвечает на вопрос о происхождении термина, потому что авторы рассматривают его как уже устоявшееся понятие. «…Interest in deep feedforward networks was revived around 2006 (refs 31–34) by a group of researchers brought together by the Canadian Institute for Advanced Research (CIFAR)». Вот так вот. «Interest in deep feedforward networks was revived around 2006». Ну и если господа LBH говорят, что интерес к глубоким сетям был возрожден примерно к 2006 году группой канадских исследователей, то разве можно в этом сомневаться? Ни в коем случае! Ian Goodfellow, Yoshua Bengio, Aaron Courville Конечно же, никак нельзя обойтись и без книги «Deep Learning»: Книга «Deep Learning». Ian Goodfellow, Yoshua Bengio, Aaron Courville. Источник.Глянем же, что нам по поводу истории возникновения расскажет мистер «B» с товарищами. Многообещающе, «deep learning» встречается аж 448 раз. Посмотрим, что тут есть об истории возникновения термина. «…The hierarchy of concepts allows the computer to learn complicated concepts by building them out of simpler ones. If we draw a graph showing how these concepts are built on top of each other, the graph is deep, with many layers. For this reason, we call this approach to AI deep learning». Начало хорошее, ведь авторы, прежде чем использовать термин, поделились своим пониманием оного. За это уже большое спасибо! «Of course, it can be very difficult to extract such high-level, abstract features from raw data. Many of these factors of variation, such as a speaker’s accent, can be identified only using sophisticated, nearly human-level understanding of the data. When it is nearly as difficult to obtain a representation as to solve the original problem, representation learning does not, at first glance, seem to help us. Снова натыкаемся на идею, что большую проблему можно разрезать на более мелкие, которые, в свою очередь, тоже делятся на подзадачи и т. д. Догадываюсь, что вокруг этой концепции все и будет крутиться. Идем дальше: «We expect that many readers of this book have heard of deep learning as an exciting new technology, and are surprised to see a mention of “history” in a book about an emerging field. In fact, deep learning dates back to the 1940s. Deep learning only appears to be new, because it was relatively unpopular for several years preceding its current popularity, and because it has gone through many different names, and has only recently become called «deep learning». The field has been rebranded many times, reflecting the influence of different researchers and different perspectives». «...dates back to the 1940s». Хм, о чем же пойдет речь? «… A comprehensive history of deep learning is beyond the scope of this textbook. However, some basic context is useful for understanding deep learning. Broadly speaking, there have been three waves of development of deep learning: deep learning known as cybernetics in the 1940s–1960s, deep learning known as connectionism in the 1980s–1990s, and the current resurgence under the name deep learning beginning in 2006. This is quantitatively illustrated in figure 1.7». Думал, что сразу будет отсылка к работе Мак-Каллока и Питтса (ее мельком упомянем ниже). Впрочем, авторы все же ссылаются на эту работу: И да, «current resurgence under the name deep learning beginning in 2006». Позже еще к этому вернемся… Далее термин уже используется опять же как нечто определенное и устоявшееся, поэтому в ответе на изначальный вопрос данная книга больше не поможет. Жаль… Yann LeCun Раз мы рассмотрели труды двух участников LBH, будет несправедливо не изучить книгу Яна Лекуна: Книга «Как учится машина». Ян Лекун. Источник.Итак, мистер «L», найдем ли мы здесь что-нибудь интересное о том, когда появился термин «deep learning»? Посмотрим: «… Вместе с Джеффри Хинтоном и Йошуа Бенжио, моими коллегами и друзьями, мы решили возродить интерес научного сообщества к нейронным сетям… К счастью, на нашем пути появилась благотворительная организация CIFAR (Canadian Institute for Advanced Research, Канадский институт перспективных исследований… В 2004 г. она запустила пятилетнюю программу «Нейронные вычисления и адаптивное восприятие», или NCAP (Neural Computation & Adaptive Perception), директором которой тогда стал Джеффри Хинтон, а я — научным консультантом. Программа NCAP позволила нам собираться вместе, организовывать семинары, приглашать наших студентов и даже создавать небольшое научное сообщество. Данный фрагмент был взят из главы под названием «Заговор глубокого обучения». Говорите, мистер «L», вы придумали новое название? Хорошо, верим. Проверить эти слова, к сожалению, особо не получится, т. к. в самой книге на эту тему никакие источники не указаны. Да и как подобное заявление в принципе можно проверить? Wei Di, Jianing Wei, Anurag Bhardwaj Честно говоря, уже не помню, какими дебрями вышел на эту книжку. Подозреваю, что при очередном поиске полезной литературы в сети я наткнулся на «Deep Learning Essentials»: Снова рыскаем в поисках исторических справок и находим: О, новый источник подъехал — Pamela McCorduck, «Machines Who Think». Чудненько! Но к нему мы обратимся позже, а пока вернемся к текущему источнику: Само собой, Мак-Каллок и Питтс. Гении-одиночки, супергерои, заложившие основы глубокого обучения. Или нет? Идем дальше и находим раздел «Brief history»: Ай, как прекрасно! Brief history… Честно говоря, я все чаще и чаще задумываюсь над смыслом фразы «историю пишут победители» (ниже еще вернемся к этому). Интересная фраза, много чего можно на эту тему покопать. Предлагаю порассуждать над смыслом этой фразы и тем, какое это имеет отношение к глубокому обучению в частности и к искусственному интеллекту в целом.Pamela McCorduck Глянем же, что в этой замечательной книжке: Я совру, если скажу, что прочитал всю эту книгу. Тем не менее, есть тут парочка моментов, которые меня заинтересовали. Вот один из них:«… there’s a distinct American bias in my history, which may have been appropriate in earlier days, but is no longer. Vigorous research groups now exist in Europe, the Soviet Union, and Japan, and the British effort echoes throughout the history of artificial intelligence, sometimes merrily, sometimes sadly, but always a presence». К слову о том, кто пишет историю. Сам факт признания автором того, что не только в США занимаются исследованиями в области ИИ и что есть «Vigorous research groups» и за пределами ее страны, конечно, заслуживает… Уважения? Восхищения? Равнодушия? Не знаю я, какого отношения заслуживает этот факт, но к человеку не прикопаешься. Имеет она право рассказывать америкоцентричную историю ИИ? Разумеется! Имеет ли она право рассказывать про одних исследователей и не рассказывать про других? Безусловно! Другой интересный момент — хронология, которая приведена в книге: Что же, глубоко копает автор. Есть только одна малюсенькая проблема: это снова опора на исключительно западноевропейские источники. Правильно ли я понимаю, что ни в Азии (пример статьи о китайских автоматах или о механических садах Индии), ни в Южной Америке, ни в Африке, ни в каких других частях света подобные идеи не возникали? А, ну погодите, тут же пояснение есть: «… This time line lays out the sequence of efforts throughout Western history to mechanize thinking, beginning with the earliest mythological and literary examples, followed by philosophical tracts, mathematical formulations, automata and other kinds of devices, most importantly the digital computer, that have been proposed as ways to automate thought». Честно? Честно. Имеет ли право автор ограничиваться, так сказать, «западной историей механизации мышления»? Естественно! Далее хронология не отступает от курса и упоминает о событиях, имеющих отношение исключительно к Западной Европе и Северной Америке. Словно в остальном мире ничего на темы искусственного интеллекта, вычислительной техники, автоматизации и механизации мышления не происходило. Утверждает ли автор, что нигде подобные идеи не возникали? Нет. Претендует ли на объективность? Отнюдь. Но пойдем дальше и проверим, пишет ли Памела о глубоком обучении. Увы и ах. Но в конце концов, «deep learning» — не единственное, что любопытно было бы найти в книге. Пошуршим в ней еще: «… Traces the growing conviction that brains are a species of machine, the failed attempts to equate the on-off logic of the computer with the on-off logic of brain neurons. Reviews the early work of McCulloch and Pitts, as well as self-organizing systems, the Perceptron, and other attempts in the United States and Great Britain to link brains and machines». Об этом нас уже предупредили. В «Machines Who Think» есть и подробнейшее описание того, как появилась работа Норберта Винера по кибернетике. Помимо прочего, в ней описывается, как Винер, Розенблют и Бигелоу работали над улучшением противовоздушной артиллерии и постепенно приходили к идеям, изложенным в их общем эссе «Behavior, Purpose and Teleology» от 1943 года. Наиболее примечательна в нем предложенная классификация поведения: Эссе, опубликованное в 1943 году, само по себе заслуживает прочтения, однако мы немного отклонились. Упомянув его, Памела далее пишет следующее: «At this time, when such a systems approach to biology, and in particular, mental function, is common in biology textbooks, it's difficult for us to imagine the surprise of any biologist who happened to pick up that issue of Philosophy of Science. It certainly astounded the regular readers». Хм, автор пишет, что нам трудно представить удивление любого биолога, которому доведется взять в руки этот выпуск «Философии науки». Да неужели? А как же Николай Рашевский? Он тоже был бы «astounded»? Николай Рашевский, судя по официальному сайту библиотеки Чикагского Университета, — основатель математической биологии. А в статье «(физио)логические цепи: происхождение идеи Мак-Каллока и Питтса о нейронных сетях» так и вовсе сказано: «… Питтс познакомился с Н. Рашевским, который включил его в свою группу по математической биологии в Чикагском университете». И в этой же статье: Математическое описание поведения нейронов и нейронных сетей стало популярным в 1930-е и в начале 40-х годов, в первую очередь, благодаря работам Н. Рашевского и его группы… В начале 1930-х годов Рашевский опубликовал несколько статей по математической теории нервной проводимости. Погодите, погодите, у меня мемчик припасен: Ну и как вы думаете, сколько раз Памела МакКордак упомянет в своем труде Н. Рашевского? Верно, ноль раз. Но, повторюсь, все честно. Нас еще в названии предупредили, что это «A Personal Inquiry into the History and Prospects of Artificial Intelligence». Daniel Crevier Как и с «Deep Learning Essentials», не помню, какими дебрями вышел на эту книжку. Но на первый взгляд кажется, что книга отвечает нашему запросу. Значит, имеет смысл ее глянуть: Думаю, что никого уже особо не удивишь тем, что поиск упоминаний Deep Learning прошел тщетно: Так что сразу попробуем поискать что-нибудь ближе к кибернетике и нейронным сетям. Довольно быстро находим интересный пассаж:«… The answer was not long in coming. While these AI experiments of the 1960s and early 1970s were fun to watch and probably even enjoyable to create, it soon became clear that the techniques they employed would not be useful apart from dealing with carefully simplified problems in restricted areas. Not surprisingly, the U.S. military, one of the main sponsors of early AI research, was also one of the first to have second thoughts». Миленько, миленько… Впрочем, иного, пожалуй, не следовало ожидать, не только от U.S. military, но и от «любая другая страна» military. «… Most of the events I will relate happened in the United States. This emphasis stems only in part from my own bias toward the country where I studied and keep so many friends: it is a fact that most pioneering AI research occurred in America, probably because of the overbearing interest of the U.S. military. My apologies to Japan and Europe, who are now catching up: future accounts of AI will say more about them!». Most pioneering AI research? Apologies to Japan and Europe? Ладно, допустим. Идем дальше: «… An early “man in the machine” was the statue of the god Amon in the royal city of Napata in ancient Egypt around 800 b.c. Upon the demise of a pharaoh, eligible heirs were marched past the statue of Amon until the god made known his choice by extending his arm to grab the successor. Amon then “delivered” a consecrating speech». К чести автора следует заметить, что он, говоря о том, насколько древней на самом деле является идея воссоздания интеллектуального поведения, не ограничился одной только Европой, а шагнул чуток за пределы. За это ему спасибо! Но идем дальше: «… One of the first Americans to observe common points between the mind and engineered devices was the MIT professor of engineering and mathematics Norbert Wiener». Вполне логично, что с Винера начинается рассказ о том, как: «… Seeing himself as too broad an intellect, however, to confine himselfto a single field of study, Wiener wandered in what he called the “frontier areas” between disciplines. While roaming along the borders of engineering and biology, Wiener created the science of cybernetics». Ну и как вы думаете, кого же мы тут встречаем? Правильно, МакКаллока и Питтса (и внезапно Хебба): «… Contrary to later researchers, who concentrated on experimental simulations, early neural net workers attempted mathematical analyses of how networks of such neurons would behave. Warren McCulloch and Walter Pitts were two of the most truly colorful figures to work in this field. Another influential figure was Donald Hebb, who later provided more theoretical insight by considering biological neurons». Работе МакКаллока и Питтса посвящено несколько страниц, рассказывается о том, что в их работе делается упор на понятие «цикла обратной связи», рассказывается про общество Телеологов, про состав этого общества, про терки МакКаллока и Питтса с Аланом Тьюрингом, мельком задевается работа Дональда Хебба… и ни словечка о группе Рашевского. К слову о работе МакКаллока и Питтса: есть такая вот статья (русский перевод этой статьи уже приводился выше), где в частности говорится следующее: «… By examining the intellectual backgrounds of McCulloch and Pitts as individuals, it will be shown that besides being an important event in the history of cybernetics proper, the McCulloch–Pitts collaboration was an important result of early twentieth-century efforts to apply mathematics to neurological phenomena». О чем же речь? Может об этом: «… Providing an intellectual space for this collaboration was a group devoted to mathematical biology at the University of Chicago, pioneered by the mathematical biologist Nicolas Rashevsky (1899 – 1972), who saw mathematics as a powerful tool for the study of complex biological phenomena». Или об этом: «… This led to Carnap hiring Pitts for “some menial job.” It was through Carnap that Pitts met Nicolas Rashevsky, who took Pitts in as part of his group on mathematical biology, and who held weekly seminars on the subject at the University of Chicago (Cowan, 1998, pp. 104 – 105). This, according to Lettvin, was the only department Pitts ever called home». «ever called home»… Ну и далее статья довольно подробно описывает то, как зарождалась исследовательская группа Рашевского, кто были первыми учениками, какие статьи публиковал Рашевский и т. д. Рассказывается также и о том, как появился журнал, в котором, в конечном итоге и будет опубликована работа МакКаллока и Питтса. Есть в числе прочего и вот такой отрывок: «… Joining Rashevsky’s group as early as 1940, Walter Pitts took up some of the problems tackled by Rashevsky and Householder (Pitts, 1942a, 1942b, 1943) … Adopting Householder’s model of neural excitation, Pitts developed a simpler procedure for the mathematical analysis of excitatory and inhibitory activity in a simple neuron circuit, and aimed to develop a model applicable to the most general neural network possible. Ну и далее автор плавненько подводит к следующему: «… Rashevsky’s project in mathematical biology had provided an important intellectual space for McCulloch and Pitts. “Mathematical biology,” as conceived by Rashevsky, with its emphasis on the formalization of complex phenomena, fit in with McCulloch’s quest for a “psychon,” a “least psychic event,” and Pitts’s fascination with mathematical logic. With their pursuit of questions that were at once philosophical and physiological, McCulloch and Pitts were able to collaborate within a community of theoretically-oriented mathematical biologists». А вывод так и просто с ног валит: «… Thus, through his creation of the Bulletin for Mathematical Biophysics, Rashevsky created a venue for the McCulloch – Pitts collaboration. Indeed, McCulloch later recalled that they were able to publish their paper “thanks to Rashevsky’s defense of logical and mathematical ideas in biology” (McCulloch, 1965a, p. 9). Besides being a formative event in the history of cybernetics and 26 cognitive science, the McCulloch – Pitts collaboration had a history of its own, and was an important result of early-twentieth-century efforts to apply mathematics to neurological phenomena». Должен ли был об этом хоть что-то упомянуть автор, пишущий книгу про «The tumultuous history of the search for artificial intelligence»? Оставлю этот вопрос открытым. Simon Haykin Сидел в «Доме книги» на Невском, взгляд случайно упал на книгу Саймона Хайкина. Вспомнил, что и у него есть книга о нейронных сетях. Источник.Как и в случае с Кристофером Бишопом и Дэниелом Кревьером, точное попадание… В книгу, где нет ни одного упоминания искомого термина. Забавно. Тем не менее, есть тут все же кое-что интересное, а именно «HISTORICAL NOTES»: «… We conclude this introductory chapter on neural networks with some historical notes. The modern era of neural networks began with the pioneering work of McCulloch and Pitts (1943) … According to Rail (1990), the 1943 paper by McCulloch and Pitts arose within a neural modeling community that had been active at the University of Chicago for at least five years prior to 1943, under the leadership of Rashevsky». Ну понятно… Мак-Каллок и Питтс, куда же без этих ребят… Интересно тут немного другое: автор все-таки упоминает Рашевского Николая Петровича, который был лидером сообщества, в котором была взращена работа Мак-Каллока и Питтса. Математический гений Уолтер Питтс и Уоррен МакКаллок, написавшие свою работу по модели нейрона… Будучи не в вакууме и не в одиночестве, а пребывая в сообществе единомышленников и, подозреваю, регулярно обмениваясь идеями в нем. О возможном влиянии сообщества, созданного Николаем Петровичем, на работу, ставшую чуть ли не началом эпохи нейронных сетей, из всех пока что просмотренных зарубежных авторов говорит лишь один. Да и то мельком, между делом. Ну и опять же, далее идет беглый обзор ряда работ, которые стали (по мнению автора) наиболее примечательными. Конечно же, будет сказано о работе Винера: «… In 1948, Wiener's famous book Cybernetics was published, describing some important concepts for control, communications, and statistical signal processing. The second edition of the book was published in 1961, adding new material on learning and self·organization». Конечно же, будет сказано и о постулате обучения Хебба: «… The next major development in neural networks came in 1949 with the publication of Hebb's book The Organization of Behavior, in which an explicit statement of a physiological learning rule for synaptic modification was presented for the first time. Specifically, Hebb proposed that the connectivity of the brain is continually changing as an organism learns differing functional tasks, and that neural assemblies are created by such changes». Вы здесь найдете и про проблему присвоения кредита (не скрипите зубами, я просто пост-мета-квази-смузи-иронизирую ???): «… An important problem encountered in the design of a multilayer perceptron is the credit assignment problem (i.e., the problem of assigning credit to hidden neurons in the network). The terminology «credit assignment» was first used by Minsky (1961), under the title «Credit Assignment Problem for Reinforcement Learning Systems»». А есть и и вот такой фрагмент: «… The idea of simulated annealing was later used by Ackley, Hinton, and Sejnowski (1985) in the development of a stochastic machine known as the Boltzmann machine, which was the first successful realization of a multilayer neural network». «… the Boltzmann machine, which was the first successful realization of a multilayer neural network»? Ну что же, хорошо. Возможно, автор, когда писал эту историческую справку, просто не был в курсе того, что над обучением многослойной сети уже работали Алексей Григорьевич Ивахненко и Валентин Григорьевич Лапа чууууть-чуть раньше. Либо автор в курсе и по каким-то причинам считает, что эта работа не является первым успешным прецедентом обучения многослойной сети. Тут остается лишь гадать. Charu C. Aggarwal Извлек из закладок книгу «Neural Networks and Deep Learning»: Здесь словосочетание «deep learning» тоже используется уже как устоявшийся термин. Есть тут, в частности, глава, в которой дается очень сжатое описание взлетов и падений интереса к искусственным нейронным сетям (божечки, о божечки, как же это называется, никак не могу вспомнить ?). Автор начинает главу с упоминания книги Марвина Минского и Сеймура Пейперта «Perceptrons. An Introduction to Computational Geometry» в которой (как утверждает автор) Минский и Пейперт выступали решительно против нейронных сетей по причине невозможности обучения их многослойных вариантов:«In their influential book, Minsky and Papert [330] strongly argued against the prospects of neural networks because of the inability to train multilayer networks». Ну и я хотел бы, конечно, сказать, что дальше по тексту будет раскрыто, откуда взялся термин «deep learning», но нет, такого не происходит, к сожалению. Автор рассказывает про то, что алгоритм обратного распространения ошибки был предложен Румельхартом и это был первый серьезный прорыв в обучении нейронных сетей: «The first significant breakthrough in this respect was proposed by Rumelhart et al. [408, 409] in the form of the backpropagation algorithm». Здесь, конечно, стоит оговориться, что в книге на эту тему присутствует сноска: «Although the backpropagation algorithm was popularized by the Rumelhart et al. papers [408, 409], it had been studied earlier in the context of control theory. Crucially, Paul Werbos’s forgotten (and eventually rediscovered) thesis in 1974 discussed how these backpropagation methods could be used in neural networks. This was well before Rumelhart et al.’s papers in 1986, which were nevertheless significant because the style of presentation contributed to a better understanding of why backpropagation might work». Памятуя о том, как избирательно (как это уже было показано на нескольких примерах) могут составляться подобные исторические справки, невольно задаешься вопросом: а может и тут кто-нибудь тоже чисто случайно не упомянут? Но это так, вопрос в воздух. Впрочем, ответ на этот вопрос уже попытались дать, вполне успешно. Rina Dechter Пока шерстил книгу Минского и Пейперта, наткнулся и на ее описание в Википедии, а уже с этой странички перескочил на страничку по deep learning, на которой есть вот такой вот пассаж: «In addition, term deep learning was proposed in 1986 by Rina Dechter although the history of its appearance is apparently more complicated». Да не, это же Википедия! Разве можно в таких важных вопросах ссылаться на Википедию? Ведь в конце концов, как писал в своей рукописи «Мастер и Маргарита» «Помилуйте, – снисходительно усмехнувшись, отозвался профессор, – уж кто-кто, а вы-то должны знать, что ровно ничего из того, что написано в Википедии, не происходило на самом деле никогда, и если мы начнем ссылаться на Википедию как на исторический источник… – он еще раз усмехнулся, и Берлиоз осекся, потому что буквально то же самое он говорил Бездомному, идя с тем по Бронной к Патриаршим прудам». Что же мы сможем найти еще? Много чего, но в числе прочего еще и вот такую статью: Оффтоп. Был у меня на одной из работ коллега, по иронии судьбы тоже из Швейцарии и тоже Юрген. Работать с ним было одно удовольствие: в рабочих статьях он описывал все настолько дотошно и четко, что родилось словечко «Юргенизировать». Термин применялся для ситуаций, когда что-то (бизнес-процесс, задача, явление) разбиралось на атомы, анализировалось и укладывалось в стройную конструкцию, где каждому компоненту есть свое строго определенное место. Статьи в энциклопедиях ссылаются на оригинальную работу Рины Дехтер — «Learning While Searching in Constraint-Satisfaction-Problems». Где же она там говорит о глубоком обучении? А вот тут: «… Discovering all minimal conflict-sets amounts to acquiring all the possible information out of a dead-end. Yet, such deep learning may require considerable amount of work». А еще вот тут: «… When deep learning is used in conjunction with restricting the level of learning we get deep first-order learning (identifying minimal conflict sets of size 1) and deep second-order learning…». И вот тут: «… Our experiments (implemented in LISP on a Symbolits LISP Machine) show that in most cases both performance measures improve as we move from shallow learning to deep learning and from first-order to second-order». И вот тут: «… The zebra problem, …. Second-order-deep learning caused a second leap in performance, with gains over no-learning-backjump by a factor of 5 to 10». The zebra problem? Hey, zebra, is there any problem here?))) Что еще за зебра? Какая там у нее проблема? Ну да ладно, это я так, дурачусь. Вообще конечно формулировка задачи присутствует в конце статьи: Это так называемая головоломка о зебре, a.k.a. загадка Эйнштейна, и рассматривается она в статье как задача удовлетворения ограничений (CSP — constraint satisfaction problem). Мы сталкиваемся с подобными задачами регулярно. Например, приготовление обеда: нужно взять точное количество ингредиентов, правильно их нарезать, смешать и готовить на нужном огне определенное время. Если все сделать правильно, то мы получим вкусный обед. Чем вам не задача удовлетворения ограничений? ? И вот тут может возникнуть вопрос: а причем тут вообще обучение, да еще и глубокое? Кого и чему там учат? Чтобы ответить на этот вопрос, достаточно почитать оригинальную статью, которая, кстати, по объему не очень-то и большая (семь страничек). В ней автор описывает различные вариации алгоритма поиска с возвратом, применяемые для решения задач удовлетворения ограничений. Основной акцент делается на том, как алгоритмы возвращаются на предыдущие шаги, если поиск зашел в тупик. «Those improvements center on the issue of “jumping-back” to the source of the problem in front of dead-end situations». Рина Дехтер рассматривает проблему с другой стороны и предлагает идею сохранения причин возникновения тупиковых ситуаций. Сразу вспоминается фраза: «Умный человек найдет выход из любого сложного положения. Мудрый в этом положении не окажется». В начале статьи автор приводит небольшую классификацию улучшений «ванильного» алгоритма поиска с возвратом. Изобразим ее небольшой схемкой: И буквально через абзац появляется мысль об обучении: «Constraint-recording in look-back schemes can be viewed as a process of learning, as it has some of the properties that normally characterize learning in problem solving: С обучением разобрались, но где глубина? Опять-таки немного почитаем статью. Дальше Рина пишет, что при решении задачи удовлетворения ограничений могут возникать последовательности, которые, приводят к тупику. В статье для такого случая вводится термин «conflict set». Вопрос: к тупику привела вся последовательность или только ее отдельные куски (в статье — «subsets»)? Повествование ведет к мысли, что запоминать всю последовательность — не очень-то и полезно для поиска решения, а вот выделить какие-то ее отдельные фрагменты, которые привели к тупику — вот это уже другой разговор. Чем больше, так сказать, «уроков» будет «извлечено» из возникшей ситуации, тем лучше. И вот уже это (извлечение максимального количества цепочек решений, приведших к тупику) автором и было обозначено термином «deep learning». Получается, что ученик — это модификация алгоритма поиска с возвратом, которая учится тому, чтобы осуществлять задачу поиска решения более эффективно (что измеряется скоростью поиска) по мере накопления опыта в виде новых ограничений, которые были выявлены в процессе разбора тупиковых ситуаций. Что-то я уже как-то начинаю подозревать, что где-то я нечто подобное видел… Ах да, ну как же! Вот же: «A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E». Это определение, которое Том Митчелл дал термину «machine learning» в своем учебнике «Machine learning», который был опубликован издательством McGraw Hill в 1997-м году. Tom Mitchell Ну и раз уж мы упомянули Митчелла, заглянем и в его книгу. Источник.Употребления термина «deep learning» тут, как и во многих других книгах, нет, как и выделенных фрагментов с историческими справками. Но это вполне ожидаемо. Книга сконцентрирована на технической стороне вопроса. Тем не менее, автор все же что-то пишет о том, как развивались нейронные сети: «… Work on artificial neural networks dates back to the very early days of computer science. McCulloch and Pitts (1943) proposed a model of a neuron … During the early 1960s Widrow and Hoff (1960) explored perceptron networks (which they called «adelines») and the delta rule, and Rosenblatt (1962) proved the convergence of the perceptron training rule … Minsky and Papert (1969) showed that even simple functions such as XOR could not be represented or learned with singlelayer perceptron networks, … (Rumelhart and McClelland 1986; Parker 1985). These ideas can be traced to related earlier work (e.g., Werbos 1975). … book on parameter learning methods for pattern recognition is Duda and Hart (1973). The text by Widrow and Stearns (1985) covers perceptrons and related single-layer networks and their applications. Rumelhart and McClelland (1986) produced an edited collection of papers that helped generate the increased interest in these methods beginning in the mid-1980s. Recent books on neural network learning include Bishop (1996); Chauvin and Rumelhart (1995); Freeman and Skapina (1991); Fu (1994); Hecht-Nielsen (1990); and Hertz et al. (1991)». Особо больше тут ничего и не скажешь. Это в первую очередь техническая литература, так что рассчитывать на развернутую историческую разметку не приходится. Igor N. Aizenberg, Naum N. Aizenberg, Joos Vandewalle С чего это вдруг? А с того, что на приведенной выше страничке эта книга упоминается, как книга, в которой термин «deep learning» был применен уже непосредственно к нейронным сетям: Тут статья, собственно, отсылает нас к одному посту: И если вы попытаетесь его просто открыть, то ничего не увидите. Тем не менее, интернет, видимо, действительно помнит если не все, то очень многое: А вот, собственно, сама книга: И да, все на месте: Ну что же, господа LBH, кажется, здесь произошло какое-то недоразумение. Очевидно, что вы могли придумать словосочетание «глубокое обучение» независимо и параллельно с другими авторами, однако выходит так, что кто-то (ну, точнее говоря, Игорь Айзенберг, Наум Айзенберг и Йос Вандевалле) сделал это до вас.Есть ли у меня доказательство того, что вы, господа LBH, заглядывали в эту книгу? Нет, таких доказательств у меня нет. Могу лишь сказать, что сам термин применительно к нейронным сетям существовал и до того, как вы его, по выражению мистера «L», придумали. Итого Ну что же, думаю, что тут имеет смысл поставить точку (с запятой) и подвести какой-никакой итог. «…the history of its appearance is apparently more complicated. A detailed and preferably objective analysis of the events of this period is still waiting for its researcher». Головоломка? Почему головоломка? Потому что по мере изучения источников, разобранных выше, я прямо ощущал, как в голове спорят между собой грусть, злость, отвращение и радость. Я здесь уже наверное не успею расписать прямо все, что вызывало те или иные эмоции, но думаю, что по тексту плюс-минус понятно, что преобладало)) Да-да, преобладал вот этот чувак: Почему? Что ж, достаточно того факта, что в книгах, которые затрагивают вопрос истории ИИ (по крайней мере, в тех, что мы рассмотрели) эта самая история преподносится с такой однобокостью, что остается только руками развести от изумления. Нет, разумеется, есть те, кто из этого тренда выбивается. Есть, безусловно, прекрасные работы Юргена Шмидхубера, есть работа Тары Абрахам, в которой она не пытается отнять славу создателей «первой» модели нейрона (кстати странно, почему это их еще не окрестили отцами ИИ). Все, что делает Тара Абрахам, это всего лишь напоминает, что работы подобные той, что писали гениальный беспризорник и профессор, не рождаются из воздуха, сами по себе, а всегда являются плодом творческого переосмысления и систематизации трудов и идей, созданных раньше другими людьми. Да и Юрген, собственно, (как видится лично мне) своими работами по истории ИИ не дискредитирует заслуги предполагаемых соперников (как выражается мистер «H»), а делает ровно то, что имеет в виду в одном из своих постов:«…We must stop crediting the wrong people for inventions made by others». Это уже вызывает другую эмоцию: Только ли эти эмоции вызвал поиск истоков глубокого обучения? О нет, отнюдь! Впрочем: Ну вы поняли ? Заключение В заключение я бы хотел привести еще парочку книжек. Начну с «Незападной истории науки» (есть на русском и английском): Рискну предположить, что при не очень критическом прочтении может сложиться точка зрения, которую сформулировал Мартин Форд (а это другая книжка): «…These three men not only made seminal contributions to the mathematical theory underlying deep learning, they also served as the technology’s primary evangelists. Together they refined ways to construct much more sophisticated—or “deep”—networks with many layers of artificial neurons». Как вы думаете, о каких «three men» идет речь? Впрочем, это же все были зарубежные авторы. А что думают, наши, отечественные? Об этом расскажу потом, а пока что пожелаю всем хорошего времени суток! Я тут Telegram-канал недавно завел. Пишу о жизни, работе, ИИ, кофе и прикольных книжках. Если вдруг интересно, подписывайтесь, милости прошу ? Источник: habr.com Комментарии: |
||||||