Новый алгоритм помогает машинам учиться так же быстро, как людям

2016-01-26 15:20

искусственный интеллект, распознавание образов, алгоритмы распознавания речи

Прорывом искусственного интеллекта из университетов Нью-Йорка, Торонто и Массачусетского технологического института является демонстрация впечатляющей способности искусственного интеллекта узнавать визуальные концепции с одного снимка и манипулировать ими способами, подобными человеку.

Продвижение может привести к более умным телефонам, значительно улучшенному распознаванию речи и компьютерам, которые лучше понимают мир вокруг них.

Эффект Чубакки

Человеческие существа проявляют удивительную способность к схватыванию вещей на лету: детям, например, нужно показать только один пример нового объекта, вроде собаки или школьного автобуса, прежде чем они смогут идентифицировать другие экземпляры самостоятельно.

Одной из причин нашей сообразительности, как полагают исследователи, является то, что мы часто понимаем новые концепции в плане того, как их части работают вместе как единое целое. Когда мы впервые увидели Segway, мы быстро узнали колеса и ручку, заключая с разумной степенью уверенности, что это должна быть некоторая форма личного транспорта.

То же самое функциональное представление о реальности верно, когда дело доходит до языка. Когда мы видим символы, написанные на бумаге, даже незнакомые, мы не просто видим чернила на странице, но и ряд линий, которыми их написали, так что мы можем легко воспроизвести каждый символ. И когда мы впервые услышали незнакомый термин - скажем, имя Чубакка - мы можем повторить его, даже если мы не понимаем его значение, потому что мы разбираем звуки в терминах мышечных движений, которые их производят.

К сожалению, перевод этой замечательной способности к обучению с первого раза в область искусственного интеллекта оказывается огромным вопросом. Выдающиеся алгоритмы "глубокого изучения", в основном, связаны с распознаванием образов, которые они могут выполнять только после того, как тщательно обучены сотнями или тысячами примеров. Даже тогда это программное обеспечение может понять только объект на пассивном изображении, как образец пикселей на экране, а не с помощью понятия для создания чего-то нового.

Все поле изучения искусственного интеллекта насчитывает лишь несколько десятилетий, но вопрос о корне человеческого обучения является тем, что озадачивало философов на протяжении тысячелетий. Это проблема индукции, или того, как человеческий разум способен эффективно обобщать абстрактные понятия, включительно с ограниченным числом образцов.

Новая надежда

Исследователи Джошуа Тененбаум, Брендан Лейк и Русиан Салахутдинов уже сделали важный шаг к репликации этого вида однократного обучения внутри компьютера.

Их вероятностная система, которую они называют программное обучение Байеса (BPL), обещает стать важным шагом в таких областях, как распознавание голоса и синтез, распознавание образов и обработка естественного языка. Но в более общем виде их продвижение может помочь компьютерам лучше понимать мир вокруг них и учиться выполнять все более сложные задачи.

Программное обеспечение построено вокруг трех принципов композиционности (идея, что абстрактные представления строятся из более примитивных частей), причинности (использование примитивных частей, чтобы построить сложную структуру) и умения учиться (принцип, что знание предыдущих концепций может сделать легче изучение новых понятий).

На практическом уровне в центре алгоритма находится вероятностный метод байесовской вывода и используется, чтобы сделать выводы, основанные на ограниченных данных, в которых простые части составляют более сложный визуальный объект.

Наша работа основана на захвате умственной модели человека простыми видами компьютерных программ, по которой наши умы строят и управляют», - говорит озеро.

Впервые мы думаем, что есть система механизмов, которая может обучиться большому классу визуальных концепций, способами, которые трудно отличить от человеческих.

Программное обеспечение команды было протестировано на список 1600 незнакомых символов, взятых из языков мира, как реальных, так и мнимых. После просмотра одной рисованной версии символа в качестве отправной точки, алгоритм был в состоянии успешно распознать его среди всех других символов, разбить его на серию линий, извлечь и даже перерисовать его с небольшими вариациями, сохраняя символ по-прежнему узнаваемым для человеческих глаз.

Этот уникальный подход разбивки сложного образа и попытки понять, как его части работают вместе, позволяет программному обеспечению выполнять творческие задания, которые находятся вне вопроса для алгоритмов, основанных на распознавании образов в одиночку.

Программное обеспечение так хорошо справилось с творческим заданием, что ее работа была сочтена практически неотличимой от человеческой, поскольку подтвердилась тестом Тьюринга.

В тесте 147 судьям были представлены по 49 исследований каждому, где был ряд символов алфавита с двумя дополнительными символами, вдохновленными этими алфавитами - один изобрел человек, один - программное обеспечение. В совокупности судьи смогли идентифицировать символы, генерируемые компьютером, с точностью 52 процента, что ненамного лучше, чем случайный выбор пятьдесят на пятьдесят.

Уловки джедаев

Алгоритм работает только для рукописных символов в настоящее время, но мы считаем, что более широкий подход на основе вероятностной индукции программы может привести к прогрессу в распознавании речи и распознавании объектов, - говорит Лейк.

Один из способов, как можно улучшить распознавание речи, может быть через помощник выбора для смартфон. Так же, как манипулировать незнакомыми символами, программное обеспечение может «читать мысли пользователя» и записать незнакомое слово на основе того, что оно приняло движения ртом пользователя, произнесшего звук.

Другие возможные задачи могут включать в себя распознание стиля живописи по ансамблю ее частей, угадать функцию незнакомого объекта по его компонентам и получить гораздо лучшее понимание естественного человеческого языка.

Новый алгоритм помогает машинам учиться так же быстро, как людям

Комментарии: