Разработчик научил iPhone мгновенно распознавать объекты и видеть между ними разницу

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


С помощью машинного обучения Apple камера «отгадала» бутылку вина, молоток и кружку, но со смартфоном возникли проблемы.

Разработчик Крис Грининг (Chris Greening) научил iPhone мгновенно идентифицировать объекты и видеть разницу между, например, бутылкой вина, кружкой и молотком. На проект обратили внимание пользователи Reddit, некоторые из которых поначалу ошибочно приняли его за нововведение Google.

В демо-ролике автор наводил камеру на лежащие на столе объекты, в то время как на экране показывались самые вероятные варианты их названий и процентная вероятность правильного выбора.

Порой система оказывалась права, верно называя отвёртку (84%), линейку (94%) или бутылку вина (40%), а иногда сомневалась — айфон становился айподом (или даже модемом, а то и динамиком), а кружка — то чайной, то кофейной. Всегда демонстрировались сразу несколько вариантов, большинство из которых были синонимами.

Разработчик сделал это, подключив камеру iPhone к открытой системе машинного обучения искусственного интеллекта Core ML с технологией Vision Kit. Apple недавно обновила фреймворк для iOS 11.

Систему можно использовать для быстрого распознавания лиц, объектов и текста, анализа движений или определения штрих-кодов. На основе Core ML работают собственные приложения Apple, в том числе камера, Siri и QuickType.

Грининг подробно описал поэтапную работу над проектом в своём блоге. Он использовал iPhone на бета-версии операционной системы iOS 11, а также бета-версию интегрированной среды разработки xCode. Обо всех стадиях кодирования рассказал на Github.

При общении с пользователями Reddit Грининг подчеркнул, что его приложение пропускает изображения на устройстве без отправки данных на сервер. Работает оно при помощи нейронной сети ResNet50, над которой трудились разработчики компании Microsoft. Утверждается, что она способна распознавать более 1000 категорий, включая животных, деревья, транспорт, еду и людей.

Неудивительно, что больше всего шуток пользователи Reddit посвятили сравнению с эпизодом сериала «Кремниевая долина» (Silicon Valley), где один из героев представляет схожий проект. При этом вымышленное приложение способно отличить только хот-дог и «не хот-дог».


Источник: tjournal.ru

Комментарии: