На взгляд робота |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-10-30 17:17 Забавно наблюдать за движениями человека в очках виртуальной реальности, но куда забавнее самому быть этим человеком. Я расхаживаю по лаборатории компьютерного зрения в VR-очках, принимая разные позы: то присяду, то наклонюсь, то хитро изогнусь, пытаясь обмануть систему. Но система не поддаётся. Рисованный трёхмерный мир вокруг меня остаётся неподвижным, словно я и впрямь переместился в мультяшное пространство. Благодаря картинке-маркеру на полу лаборатории смартфон внутри очков безошибочно ориентируется и контролирует своё местоположение даже не в трёх, а в шести измерениях: есть три степени свободы для координат в пространстве и ещё три — для наклонов и поворотов. Виктор Лемпицкий — кандидат физико-математических наук, доцент Сколковского института науки и технологий. Защитил диссертацию по прикладной математике в МГУ им. М. В. Ломоносова, работал исследователем в — Определение местоположения — одна из ключевых задач машинного зрения, — объясняет Виктор Лемпицкий, когда я снимаю очки. — Это важно не только для конструирования виртуальной реальности, но и в целом для робототехники, для автономных автомобилей. Или, например, для того чтобы определять положение камеры, снимающей сцену, создавать трёхмерные конфигурации. [Кот Шрёдингера] Компьютерное зрение — это целая прикладная наука. [Виктор Лемпицкий] Да, и все уже привыкли к мысли, что её задача — научить машину извлекать информацию из картинок. Например, мы помогаем биологам в обработке потока изображений, поступающих с микроскопа,— это совместный проект с MIT. По этим картинкам можно получить самую разную статистику: количество клеток, их размеры, родство. Но в последнее время мы всё чаще задумываемся о другой задаче: как генерировать картинки? Дисциплина, которая называлась компьютерной графикой, сейчас трансформируется под влиянием стремительного прогресса в машинном обучении. Раньше компьютерные изображения создавали люди, а теперь машины. [КШ] Что же они создают? [ВЛ] Вы наверняка видели Prizma— приложение, которое перерисовывает фотографии в стилистике того или иного художника. Мы, кстати, аналог такого приложения сделали до Prizma и даже выложили его код в публичный доступ. А ещё мы, например, создали технологию для перенаправления взгляда людей, изображённых на фотографии или любой другой картинке: они могут смотреть, куда вы захотите. Мы с «Медузой» запустили в Telegram бот — присылаете ему фото, всё остальное нейросеть делает сама. [КШ] Как её этому обучали? [ВЛ] Как обычно: показывали много пар глаз с идентифицированным направлением взгляда. Для этого, конечно, нам пришлось сначала помучить студентов, да и самим помучиться — снимая людей, которые следили за точкой на экране. Восстание нейросетей [ВЛ] В последние годы в области компьютерного зрения произошла настоящая революция — такие бывают не чаще чем раз в полвека. Свёрточные нейросети в виде, близком к современному, возникли в конце 1980-х. Но лишь в нашем веке появились необходимые для революции компьютерные мощности вроде графических процессоров. А также большие данные, в частности выборки размеченных изображений вроде ImageNet, на которых нейросеть можно обучать. Очень важные изменения произошли в науке в целом. Так, гораздо популярнее стало открытое программное обеспечение, появилась целая культура открытого кодирования. В результате радикально сократилось время с момента, когда что-то придумано, до момента, когда это могут воспроизвести другие. И научные публикации теперь почти сразу выкладываются в свободный доступ на сайт Arxiv.org, а раньше, чтобы узнать о достижениях коллег, приходилось дожидаться ближайшей крупной конференции, которая могла быть через полгода. Эти процессы здорово ускорили эволюцию технологий. Раньше мы узнавали новости на конференциях, теперь они мгновенно разносятся Фейсбуком и Твиттером. И на конференции все собираются, зная, кто что сделал. Это важнейший, не побоюсь этого слова, гносеологический сдвиг, который кардинально ускорил процесс научного познания и прогресса в самых разных исследовательских областях. В итоге работать стало гораздо интереснее, но делать это приходится намного интенсивнее, в атмосфере настоящей научной гонки. [КШ] Революция уже произошла, она в самом разгаре или только начинается? [ВЛ] Не знаю. Это как если б вы жили в 1918-м и кто-то спросил, закончилась ли революция. Такие вещи можно увидеть только из будущего. К тому же сейчас людей трудно удивить чем-то новым, вызвать вау-эффект. Все слишком привыкли к прорывам, которые следуют один за другим. [КШ] Ну а где мы можем увидеть плоды этой революции, кроме как в новых айфонах, распознающих хозяина по фотографии? [ВЛ] Возьмите поиск по изображениям в Гугле или Яндексе. Никакого сравнения с тем, что было пять лет назад! А когда вы загружаете изображения в Фейсбук, соцсеть распознаёт на них лица ваших друзей. [КШ] С распознаванием объектов строго определённого типа всё понятно, а насколько нейросети в целом способны понять, что изображено на картинке? [ВЛ] Пока нейросети не могут распознать нюансы и оттенки смысла, понять юмор или настроение, оценить изящество композиции и оригинальность сюжета. Зато объекты, изображённые на картинке, нейросети определяют не хуже людей. Это и есть основной результат случившейся революции. Робот учит сам себя [КШ] Как будет эволюционировать дальше компьютерное зрение, чего ему не хватает в первую очередь? [ВЛ] Нейросети значительно хуже людей распознают действия на видео. Отчасти из-за того, что очень тяжело вручную разметить огромное количество обучающих видеороликов. Для обозначения многих действий и жестов и слов-то не существует, эти процессы сложно раздробить на отдельные понятия. В области 3D-карт улиц и помещений, других 3D-моделей пространства радикального прорыва тоже пока не было. Ну и, конечно, большая область, о которой мы с вами уже начинали говорить, — это создание нейросетью изображений. Распознавание и создание картинок — связанные друг с другом процессы. Если мы умеем генерировать изображения, то можем сделать нужное их количество для обучения распознающей сети. В Apple, например, так нарабатывали обучающие данные для модуля, который отслеживает взгляд. И наоборот, если машина хорошо определяет образы, то распознающая сеть может оценить, насколько реалистичными получились объекты у генерирующей сети. Это так называемый принцип противоборствующих сетей — целая область в машинном обучении. [КШ] Странно звучит: машина генерирует данные, потом на них же и учится. Недавно было сообщение о новой версии AlfaGo — она училась уже не на реальных партиях, а просто играла в го сама с собой и в итоге намного превзошла предшественницу. [ВЛ] Да, это очень популярное нынче направление. За последний год технологии компьютерного зрения тоже продвинулись в этом направлении. Всё чаще используется обучение на синтетических данных. Или вот ещё очень популярная задача — обучение со смещением без учителя. Это ситуация, когда есть два набора данных для обучения: один сгенерирован машиной и подробно размечен, другой взят из реальной практики, но не размечен. С помощью этих двух наборов нужно обучить нейросеть. Мы тоже занимаемся этой темой — пытаемся понять, как лучше сделать. Жизнь в виртуальном мире [КШ] Чего вы ждёте в ближайшем будущем от развития технологий компьютерного зрения? [ВЛ] Скоро они станут обыденным явлением, тем, что в англоязычном мире называют commodity—"продукт потребления". Мы ожидаем, что компьютеры научатся не только видеть происходящее, но и понимать, что именно они видят. А при необходимости — менять изображение. Вы смотрели видеоролик, где речь Обамы сгенерирована машиной и он произносит то, чего в реальности не говорил? Мы привыкнем к тому, что не надо доверять всему, что видишь своими глазами и слышишь своими ушами. [КШ] Надеюсь, будет и такая нейросеть, которая сможет отделить правду от вымысла... [ВЛ] Это будет ещё одна гонка брони и снаряда. Другой важной чертой будущего станет обретение роботами зрения — это нужно не только для ориентации в пространстве, но и для манипуляций с предметами. Ну и, конечно, автономный транспорт — одно из ключевых применений компьютерного зрения. [КШ] У вас нет ощущения, что вы приближаете антиутопию — общество тотального контроля? [ВЛ] Думаю, что компьютерное зрение здесь далеко не главное. Гораздо важнее контроль за потоками данных с вашего компьютера и смартфона — он, этот контроль, уже есть, и довольно серьёзный. Да и вообще не в технологиях дело — вон в Англии везде понатыканы камеры, система скоординированного наблюдения отлажена очень неплохо, но разве это делает британское общество таким уж несвободным? Дело тут точно не в компьютерном зрении, а в том, как эта информация используется. [КШ] А как насчёт другой страшилки — что всё будут делать роботы, а мы уйдём в виртуальные миры? [ВЛ] Прежде говорили, что поколение наших родителей уйдёт в телевизор, наше — в мир компьютерных игр, следующее — в смартфоны. Сейчас взрослые опасаются, что молодёжь растворится в виртуальной реальности. Но я склонен согласиться с историком-медиевистом Ювалем Харари, который в книге Sapiens очень убедительно показывает, что жизнь в виртуальном мире — это не новейший сдвиг по фазе, а базовое свойство человека, можно сказать, то, что делает нас Homo sapiens. Источник: kot.sh Комментарии: |
|