Можно без слов? |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-02-12 13:47 Как научить компьютер понимать русский жестовый язык, есть ли отношения на расстоянии с аспирантурой и как все это совместить с fulltime работой в офисе Continental в Мюнхене, узнали у аспиранта ИТ-факультета Московского Политеха Олега Поткина. В начале февраля в журнале Springer Nature вышла статья Олега и декана ИТ-факультета Андрея Филипповича «Обнаружение, отслеживание и классификация жестов рук с использованием сверточной нейронной сети». В статье описана программа для обнаружения, отслеживания и классификации статических жестов русского жестового языка в видеопотоке с использованием компьютерного зрения и методов глубокого обучения. Для того, чтобы опубликовать эти результаты, потребовалось 6 месяцев и около 50 экспериментов. Об аспирантской работе Я интересуюсь исследованиями в области искусственного интеллекта, машинного обучения и компьютерного зрения. Проект с жестовым языком – это одна из прикладных областей. Помимо прочего, я занимаюсь системами дополненной реальности, например, для выделения полосы движения транспортного средства и детектирования других участников движения. Одну из систем дополненной реальности я создал в рамках учебного проекта. В перспективе мне бы хотелось объединить наработки в области жестовой коммуникации с прототипами системы помощи водителю или даже управления автономным транспортным средством. Если говорить о технической стороне, то для начала мною был собран оригинальный набор данных из 2 000 уникальных изображений, который включал 10 классов. Каждый класс – это изображения жеста (киремы), обозначающего одну букву русского алфавита, которые были выполнены при разных условиях освещения разными ребятами. Это создавало проблемы для распознавания. Человеческие руки и тело имеют уникальные визуальные особенности, но для корректного распознавания жеста, нужно было научить компьютер «видеть» различные оттенки кожи вне зависимости от качества освещения, фона, наличия теней и комплекции человека. Для решение этой задачи мы выполнили следующие шаги: 1) провели размытие исходных изображений по Гауссу; 2) преобразовали изображение из RGB в цветовое пространство HSV; 3) определили верхнюю и нижнюю границы интенсивности пикселей HSV для области кожи; 4) применили серию расширений к цветовой маске для удаления шумов; 5) обнаружили и нарисовали область кисти руки. Следующим шагом было обучение и тестирование классификатора изображений. Перед отправкой данных в классификатор я произвел предварительную обработку: уменьшил размер изображения, его глубину и изменил цветовое пространство с RGB на градации серого. Далее из исходных данных были получены синтетические изображения путем случайного вращения и произвольного изменения размера. Такое преобразование позволяет расширить исходный набор данных и, тем самым, повысить эффективность глубокого обучения. Классификаторы совершенствуются даже при низком качестве исходных данных, если полезные данные можно извлечь из исходного набора. Для классификации и анализа производительности была доработана широко известная архитектура LeNet-5. Улучшения удалось добиться за счет добавления выпадающих слоев (Dropout). Полученная архитектура является более сложной, включает больше сверток и блоков в полносвязных слоях. Нейронная сеть разрабатывалась с использованием фреймворка PyTorch. Таким образом, мы получили результаты, которые могут стать основой для создания первой версии прототипа человеко-машинного интерфейса на базе жестовых команд. И планах на будущее На следующем этапе для улучшения качества детектирования кистей рук будет использован метод семантической сегментации. Это потребует иного способа маркировки данных в гораздо больших объемах. Сейчас у меня есть ряд идей, которые интересно воплотить. Хотелось бы, в конечном итоге, создать продукт полезный пользователям. Мне удается совмещать учебу в аспирантуре Московского Политеха с работой инженером-разработчиком беспилотных автомобилей в компании Continental. Сейчас я живу в Мюнхене. Это позволяет мне объективно оценивать международный опыт в крупных проектах и сотрудничать с коллегами из разных стран. В мире технологии жестового интерфейса применяются повсеместно: от медицины до автомобильной отрасли. Уже вошли в норму такие системы, как BMW iDrive, где жестовое управление вполне себе интуитивно и удобно. DICE (Dynamic и Intuitive Control Experience) от Mercedes-Benz позволяет с помощью жестов управлять мультимедийной системой автомобиля. А Google запатентовала систему, которая позволяет отслеживать движения рук водителя и с их помощью управлять бортовой электроникой. О дистанционной аспирантуре Я рад, что руководству факультета интересно наше сотрудничество, и у меня есть возможность учиться дистанционно. Сейчас я завершаю первый семестр обучения и веду работу под руководством Андрея Юрьевича Филипповича. Это профессионал с большим опытом в сфере исследований искусственного интеллекта и его прикладного применения, чьи обширные теоретические знания делают мое обучение интересным и плодотворным. Основную массу времени мы общаемся в мессенджерах, периодически проводим созвоны по Skype. В начале семестра я узнаю «правила игры», выполняю задания, отправляю отчетность и получаю по ним обратную связь. Для некоторых преподавателей это кажется «странным», но, на мой взгляд, будущее именно за таким форматом обучения. Это нужно принять как данность и активно внедрять. По своему опыту, могу сказать, что это абсолютно не тяжело, если заранее знать что, когда и кому необходимо сдать. А главным плюсом является гибкость. Ты сам выбираешь, когда и где заняться учебой. Консультацию преподавателя можно получить по e-mail, которую он дает в удобное ему время. Кажется, в таком формате каждый только выигрывает. Наверное, мне повезло – согласование прошло без препятствий. Думаю, вопрос во взаимных ожиданиях. Если они совпадают, то никаких сложностей возникнуть не должно. Но руководство факультета, конечно, должно быть уверено в репутации аспиранта. В моем случае, кажется, сомнений не возникало. О работе в Continental и жизни в Германии Вакансию я нашел на сайте компании. Отправил резюме, прошел 3 интервью и получил оффер. Больше всего запомнился первый этап. Он показался мне самым сложным. Это было кодинг-интервью: нужно было решить несколько алгоритмических задач в реальном времени. На тот момент я был в Калифорнии, и разница в часовых поясах ощущалась. В Германии был конец рабочего дня, а у меня – раннее утро. Все этапы интервью были дистанционными, и в Мюнхен я прилетел уже для трудоустройства. Мне нравится, что коллектив здесь действительно международный. Интересно общаться с людьми с разным культурным опытом. Здесь я ощущаю на себе гораздо меньше стресса. Отчасти, думаю, это связано с системой менеджмента. Каждый выполняет свою работу с большой эффективностью и ответственностью, поэтому дедлайнов или непредвиденных авралов крайне мало. А трудовое законодательство работает в обе стороны. Например, нельзя уволить сотрудника без предупреждения за 3 месяца, как и нельзя просто так перейти в другую компанию без уведомления работодателя за те же 3 месяца. Переработок тоже не случается. Правило work / life balance – это неприкасаемое право каждого сотрудника. Но больше всего мне приятен порядок: как в большинстве процессов, так и в рабочей культуре. Выбирая работу, я не делал ставку на конкретную компанию. Мне показался интересным проект, в котором я сейчас работаю. Я посчитал его перспективным и не ошибся. А логотип компании – это уже вторично. В целом, работа в мультикультурной среде для меня не нова. Мой опыт начался 6 лет назад со стажировки в университете Hyundai в городе Ульсан (Южная Корея), с которым Московский Политех поддерживает партнерские отношения. А после уже были Германия, Ирландия и США. В Германии мне нравится равномерный уровень развития инфраструктуры и зарплат вне зависимости от того, на территории какой земли ты находишься. Но в силу консерватизма многие инновационные сервисы появляются здесь с задержкой, например, Apple Pay. Сейчас я бы хотел набраться больше международного опыта, развиться профессионально. Для меня важно отношение государства к инновационным компаниям и ситуация на IT-рынке. Выбирая место работы, я обращаю на это особое внимание. Надеюсь, что в будущем ситуация на отечественном рынке станет более позитивной и тогда я смогу быть полезен здесь со своим опытом. А мой главный совет студентам – учить язык. Хорошее владение английским языком открывает все двери. Источник: m.vk.com Комментарии: |
|