Специалист по разметке данных |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-04-01 15:14 Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных.
На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных. Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка. Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта. LabelMe Начнем с того, что это бесплатная тулза, сделанная в MIT. С ее помощью вы можете размечать свои изображения: это могут быть просто bounding boxes, либо попиксельная сегментация. Prodi.gy Одна из самых продвинутых active learning-систем. Идея такова, что уже заранее натренированная модель с минимальным обучением пытается разметить ваши данные, а ваша задача — лишь направлять ее. Целевая аудитория — аналитики и инженеры, которым необходимо качественно размечать данные, а больших ресурсов на внешних разметчиков у них нет. UX, по словам разработчиков, похож на Тиндер. Scale API Эти ребята подходят к процессу разметки в формате “под ключ”. Дайте нам ваши данные, мы отдадим их нашим разметчикам, проконтролируем качество, дадим вам уже результат через какое-то время. И всё это через API. Supervise.ly Этот инструмент предназначен для упрощения разметки типа instance segmentation. Под капотом (по ощущению) работает что-то вроде Polygon-RNN. Вы выделяете прямоугольниками объекты, а система сама находит границы объекта внутри прямоугольника. У них есть разные натренированные сетки под разные предметные области. Mechanical Turk Сила индусской разметки на кончиках ваших пальцев. Дорого для вас, копейки для них, плохое качество, непонятный quality control, но все пользуются. В России есть аналог — Яндекс.Толока. CrowdFlower Этот инструмент — стандарт де-факто для разметки. Тоже используют живых людей, но предоставляют им более продвинутые инструменты, нежели Толока или MTurk, чтобы размечать было проще. Если знаете еще другие инструменты, пишите в комментариях. Источник: habrahabr.ru Комментарии: |
|