Борис Миркин — Анализ данных и искусственный интеллект

2017-12-11 12:04

большие данные big data, искусственный интеллект

Как анализ данных повлиял на развитие машинного обучения и в чем состоят основные проблемы в развитии искусственного интеллекта

— Для начала стоит поговорить о том, что мы вообще понимаем под искусственным интеллектом.

— Под искусственным интеллектом понимают несколько разных вещей. Первоначально имелось в виду, что машина должна будет себя вести как человек. Эту идею, возможно, в шутку предложил Алан Тьюринг сразу после Второй мировой войны, еще до проникновения компьютеров в университеты. Идея яркая, но не совсем удачная по той причине, что обычно разработка новых вещей идет от простого к сложному, а, согласно Тьюрингу, вроде бы надо наоборот. То есть вместо того, чтобы сначала разобраться в отдельных блоках структуры интеллекта, таких как структурирование информации, обобщение, осмысление и прочее, проблема подменяется ее внешней оболочкой.

В 60-е годы XX века, когда компьютеры появились в университетах, тематику искусственного интеллекта подхватили математические логики. Искусственный интеллект, сказали они, — это мощнейшая машина логического вывода. Надо задать правильные аксиомы о том или ином куске реальности, и машина автоматически выведет все его основные свойства путем использования и комбинирования различных логических умозаключений. Хотя за несколько десятилетий до этого австрийский математик Курт Гедель доказал, что само по себе это не выход: при достаточно богатой аксиоматике машина не может сама определить, что аксиоматика непротиворечива. А раз так, то все выводы становятся крайне ненадежны, ведь из противоречивых утверждений типа «А — это не А» можно логически вывести все что угодно. Древние софисты хорошо это понимали. И сами логики, и тем более их критики — если таковые были — должны были как-то уметь отговориться, апеллируя к критерию практики для проверки непротиворечивости; науку, мол, нельзя отрывать от жизни. Так и происходило: логический подход развивался, были созданы концепции фрейма, неклассические логики, специальный машинный язык ПРОЛОГ и так далее. Это продолжалось примерно до начала нового столетия. Подобным же образом развивалась и математизация естественных языков, прежде всего в связи с проблемой перевода с языка на язык. Особенно далеко продвинулась математизация структуры предложений естественного языка.

К началу XXI столетия стало совершенно ясно, что все широковещательные обещания по развитию искусственного интеллекта, на которые не скупились его разработчики при получении многочисленных грантов и наград, не будут выполнены ни сейчас, ни в обозримом будущем — из этого ничего не выйдет. Выражение artificial intelligence стало непрестижным, почти ругательным. Появились слова и дисциплины, такие как computational intelligence и machine intelligence, связанные с новыми подходами к искусственному интеллекту, опирающимися прежде всего на данные. Например, понятие computational intelligence (приблизительный перевод — «вычислительный интеллект») объединяет такие относительно несвязанные направления, как искусственные нейронные сети, алгоритмизация решения оптимизационных задач через «эволюцию» сообществ взаимозаменяемых «частиц» и генетическое программирование. Я бы сказал, что в настоящее время искусственный интеллект — это не более чем общее название разрозненных усилий по разработке тех или иных вычислительных моделей, реализующих те или иные аспекты интеллекта.

Все современные более или менее успешные реализации искусственного интеллекта (кроме роботов, конечно), то есть «Яндекс.Пробки», Google Translate, «умный дом», «интернет вещей» — все это оказалось результатом эффективных алгоритмов анализа данных, а не алгоритмов искусственного интеллекта.

— То есть смена парадигмы в 2000-е годы произошла за счет того, что в разработках искусственного интеллекта стал использоваться анализ данных? А раньше эти две области развивались параллельно?

— Да, до 1990-х годов эти области вообще не были никак связаны. Искусственный интеллект — это логика, а анализ данных — статистика. Более того, сам термин «анализ данных» не был легитимным. Мне в свое время удалось защитить докторскую диссертацию только с четвертой попытки, но, конечно, не по анализу данных — такой дисциплины до самого недавнего времени не существовало, — а по так называемому системному анализу. Процветали распознавание образов и машинное обучение; в обоих решающую роль играет «учитель» — человек или устройство, сообщающее значения выходного показателя на объектах из так называемой обучающей выборки. Задача машины — предсказать значения выходного показателя на всех остальных объектах, сделав как можно меньше ошибок. Распознавание с использованием вероятностной модели признавалось наукой, без такой модели — нет. Во второй половине 1990-х годов возникло направление data mining. Mining — это слово, которое сложно адекватно перевести на русский: тут и поиск, и раскопки, и разработка. Поэтому сейчас мы говорим просто «майнинг данных». Что под этим подразумевается? С увеличением памяти и скорости компьютеров их стали все чаще использовать в компаниях как средство хранения, преобразования и передачи данных. Но компьютеры изобретены и приспособлены прежде всего для вычислений, а не обработки данных. Пришлось разрабатывать науку и технологию так называемых баз данных, математического обеспечения, позволяющего быстро и эффективно решать задачи эффективного поиска, хранения и преобразования информации. Эта работа вовлекла довольно значительные массы программистов, логиков и математиков.

Решение проблем обнаружилось внезапно, к 1993–1995 годам, когда появились персональные компьютеры четвертого и пятого поколений, а также интерактивные операционные системы (программы, управляющие действиями компьютера), с небольшими изменениями дожившие до наших дней. Старые типы баз данных оказались не нужны, а программисты, занимавшиеся ими, остались не у дел. И тут перед ними возник новый класс проблем. Одним из решающих стал случай сети магазинов строительных и ремонтных товаров «The home depot» — их было порядка 1600 по всей Америке, каждый величиной с футбольное поле, все заполненные стеллажами с товарами. Сеть переходила на интегрированную систему обработки данных и передала исследователям порядка 50 000 так называемых транзакций, фактически чеков со списками оплаченных товаров. Поскольку все покупатели приезжали на автомобилях, то их списки покупок были большими, порядка двадцати и более купленных товаров.

Исследователи выявили так называемые ассоциативные правила. Каждое обнаруженное ассоциативное правило говорило примерно следующее: «Если покупатель приобрел товары из списка А, то он, как правило, приобретет и товары группы Б». Это логическое правило, выведенное не с помощью дедуктивного анализа по методу Шерлока Холмса, а путем расчета и сравнения частот. Для вывода такого правила надо сравнить две совокупности чеков: (а) одна — те, что содержат покупки всех товаров А и, возможно, не только их; (б) вторая — те, что содержат покупки всех товаров Б и, возможно, не только их. Теперь включаем компьютерную операцию по сравнению этих двух совокупностей чеков. В типичном случае (а) и (б) практически не пересекаются. Но если совокупность (б) содержит или почти содержит совокупность (а), то имеет место то самое ассоциативное правило: «Покупатели группы А стараются купить и группу Б». Из этого правила следует рекомендация (обратите внимание — интеллектуально-компьютерная рекомендация!), что при раскладке товаров магазин, который положит группы А и Б рядом друг с другом, будет иметь конкурентное преимущество перед магазином, в котором отыскание группы Б затруднено.

Я в это время находился в США с долгосрочным визитом, как раз в одном из центров, участвовавших в разработке, и хорошо помню тот хайп, который поднялся в связи с этой и подобными работами. Авторы утверждали, что их рекомендации по раскладке товаров принесли сети более 20 миллионов долларов. Оставим сумму на совести авторов. Сейчас, роясь в интернетных описаниях истории майнинга данных, я не сумел найти не только упоминания о сумме, но и самого названия сети, да и роль ассоциативных правил, которая тогда подавалась как революционный прорыв в анализе данных, как-то сильно уменьшена, как будто повернули бинокль обратной стороной. Майнинг данных определяется как способ обнаружения знаний — без особого уточнения, что такое знания, — прежде всего как отыскание в данных интересных закономерностей. А как отличить интересные закономерности от неинтересных? Обычно прибегают к такому уточнению: интересно то, что сильно отличается от «нормы», то есть среднего значения. В настоящее время майнинг данных интегрирован в так называемую науку данных — новую дисциплину, которая стала невероятно популярной из-за огромного интереса компаний и разработчиков к всевозможным приложениям методов анализа данных.

Вторая важная составляющая науки о данных — машинное обучение. По сути, это старая математическая статистика, но с новыми задачами. Тот прорыв, который произошел сейчас, случился в том направлении, которое предполагает, что главное — что компьютер учится, а как именно он это делает — мы не знаем, да нам и не интересно. Предполагалось, что искусственные нейронные сети будут моделировать человеческий мозг, но в итоге они работают иначе. Оказалось, что если сделать многослойную нейронную сеть, которая, казалось бы, вовсе и не нужна с математической точки зрения (для решения типичных задач распознавания достаточно сети с одним скрытым уровнем — математический факт), то от слоя к слою сеть будет обучаться, причем ни автор алгоритма, ни пользователь не могут знать, на что именно обращает внимание многослойная нейронная сеть. Пока системы глубокого обучения осваивают самые простые задачи, например обучаются на миллионах картинок, о которых «учитель» сообщает, какая из них показывает детей, играющих в мяч, а какая — нет. Простые нейронные сети могли отличать картинку с детьми от картинки без детей не более чем в 50% случаев. А глубокие нейронные сети дают менее 5–10% ошибок. Такой рывок в точности оказался ключом к решению многих практических вопросов, таких как распознавание подписи, машинный перевод, автоматическое управление автомобилем и так далее.

Проблемой остается то, что мы не до конца понимаем, как работают эти глубокие нейронные сети. Сеть — это сложная многоступенчатая формула с определенными коэффициентами, которые при каждом показе «учителя» автоматически уточняются — иногда немного, а иногда и очень сильно.

Сейчас стало общим местом, что программы могут писать стихи, например поздравления, по заказу пользователя. Можно ли это назвать интеллектом? Мне кажется, что можно выделить два типа когнитивных систем, два крайних случая. Один можно представить как совокупность текстов с выделенными важными словами. Когда появляется какой-то новый текст, источник информации, человек не понимает, что с ним делать, спрашивает про него у какого-то эксперта, которого он уважает. Ему объясняют смысл, он его запоминает, а старая информация вылетает из памяти. Такие люди мало что помнят и мало что соображают. Это все к тому, что написание стихов машиной — это примерно тот же уровень. При втором типе когнитивной структуры, которую можно назвать таксономией, частные понятия объединяются в более общие, причем в зависимости от контекста: одни и те же слова могут входить в совершенно разные общие категории. Те же стихи, созданные человеком с такой когнитивной системой, гораздо сложнее и имеют гораздо больше необычных смыслов. Это то, к чему искусственный интеллект стремится, но не может этого достичь.

— Вы сказали, что нейронные сети успешно работают на простых данных, простых изображениях. А что можно отнести к более сложным, которые тяжелее рассказать? Может, какие-то медицинские данные и снимки, например?

— Медицина — большая область, и в ней имеется бесконечное количество разных задач. Часть из них можно решить при помощи глубокого обучения, например, отличать доброкачественную опухоль от злокачественной. Но есть ряд более сложных вопросов, связанных с выбором лечения, например. Тут, как правило, взаимодействует очень много факторов, все из которых нельзя предусмотреть. Поэтому нельзя пока разработать надежные новые способы лечения, основанные на машинном обучении.

— Прогресс в анализе данных связан с появлением Big Data, с этим радикальным ростом количества информации?

— Феномен больших данных изначально появился благодаря производителям программ для анализа текстов. Они заметили, что любое предприятие, любая организация производит большое количество текстов, которые, как правило, никто не читает и уж точно не анализирует в совокупности. Они убедили компании дать им эти тексты для исследований. Позднее к этому подключились компьютерные компании, которые занялись Big Data, накопили большие компьютерные мощности — сервера — и решили продавать время и память для проведения расчетов. Это, в частности, Amazon. Их успеху способствовал тот факт, что в 1970-е годы предполагалось, что хранением данных будет заниматься правительство. Но в итоге технологии оказались в руках у частных лиц. Феномен Big Data включает в себя не только большие объемы, но и разносторонность аспектов, о которых они информируют. Например, члены какой-либо сети могут характеризоваться структурой сети, своими контактами, системами лайков, мнениями и чувствами, высказанными в дискуссиях. Еще недавно мы и мечтать не могли, что будем иметь одновременно данные о самых разных аспектах одних и тех же объектов.

— Одной из проблем в разработке искусственного интеллекта считается то, что он решает только отдельные задачи и у него нет картины мира.

— Да, нет ни картины мира, ни даже модели интеллекта. Мы не знаем ответов на самые простые вопросы. Что значит «понимать? Что такое «смысл»? Частные задачи решать получается, а общие — нет. Притом что hardware, то есть техническая составляющая, развивается очень быстро, но в отношении software (программное обеспечение) не всегда можно что-то поставить ей в пару. Здесь развитие значительно медленнее, чем я ожидал.

— Какой вывод можно сделать из всего вышесказанного?

— Подытоживая, можно сказать, что искусственный интеллект в настоящее время — это не какая-то сложившаяся дисциплина, а направление — огромная совокупность разнородных задач и подходов по автоматизации тех или иных аспектов интеллектуальной деятельности. Причем последняя состоит не только из умения накапливать знания. Не менее важная часть — принятие решений. А эмоциональная сфера? Разве она никакого отношения к интеллекту не имеет?

Что касается науки данных, то в ней вырисовываются два подхода: машинное обучение и анализ данных. Цель первого — обучение машин, цель второго — обогащение знаний. Есть примеры, где эти цели приводят к противоречию. Например, при пожаре важно, чтобы робот был эффективен, даже если он не умеет выразить правила, по которым действует. Напротив, при вынесении приговора в суде важна его логическая обоснованность, а решения, принимаемые алгоритмами по непонятным правилам, не более чем забавный пустяк. В первом случае более эффективно машинное обучение, во втором — анализ данных.

Борис Миркин

доктор технических наук, профессор Департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ, Professor Emeritus at Department of Computer Science, Birkbeck University of London

Постнаука

Борис Миркин — Анализ данных и искусственный интеллект

Комментарии: