Специалист по разметке данных

2018-04-01 15:14

Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных.

На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных.

Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка.

Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта.

В этом посте хочется сделать обзор тех инструментов (коммерческих и бесплатных), которые пытаются облегчить жизнь этих прекрасных людей — разметчиков данных.

LabelMe

Начнем с того, что это бесплатная тулза, сделанная в MIT. С ее помощью вы можете размечать свои изображения: это могут быть просто bounding boxes, либо попиксельная сегментация.

По сути дела, это некий UI, в котором можно выделять контуры изображения и ставить точки. Это всё. Ничего более умного эта тулза не умеет. Еще одна фича: у LabelMe есть мобильное приложение. Можно не терять зря время в метро, электричке, автобусе, на скучной лекции.

Prodi.gy

Одна из самых продвинутых active learning-систем. Идея такова, что уже заранее натренированная модель с минимальным обучением пытается разметить ваши данные, а ваша задача — лишь направлять ее. Целевая аудитория — аналитики и инженеры, которым необходимо качественно размечать данные, а больших ресурсов на внешних разметчиков у них нет. UX, по словам разработчиков, похож на Тиндер.

Тулза просит разметить только те объекты, по которым она не уверена. Вроде как, они делают больший упор на работу с текстами, но computer vision у них тоже есть, в том числе работа с видео. Сами мы ею не пользовались. Она платная. Стоимость лицензии начинается от 390$.

Scale API

Эти ребята подходят к процессу разметки в формате “под ключ”. Дайте нам ваши данные, мы отдадим их нашим разметчикам, проконтролируем качество, дадим вам уже результат через какое-то время. И всё это через API.

Естественно, это тоже не бесплатный инструмент. Например, разметка одной картинки для задачи семантической сегментации (то есть выделить на изображении объекты контурами и сказать, что это за объекты) будет стоить 8$, если вам нужно срочно, или 6.4$ если готовы подождать.

Supervise.ly

Этот инструмент предназначен для упрощения разметки типа instance segmentation. Под капотом (по ощущению) работает что-то вроде Polygon-RNN. Вы выделяете прямоугольниками объекты, а система сама находит границы объекта внутри прямоугольника. У них есть разные натренированные сетки под разные предметные области.

Ребята ещё умеют генерировать синтетические данные из игр и разбавлять ими реальные, если реальные сложно достать. Плюс они же могут завести всю свою систему внутри вашего энтерпрайза, чтобы данные от вас никуда не уходили. В общем, по ощущениям, может хорошо ускорять работу разметчика. Но это не точно.

Mechanical Turk

Сила индусской разметки на кончиках ваших пальцев. Дорого для вас, копейки для них, плохое качество, непонятный quality control, но все пользуются. В России есть аналог — Яндекс.Толока.

Когда-нибудь мы возьмем интервью у пользователей этих платформ и узнаем, как проходит их рабочий день, в чем возникают сложности.

CrowdFlower

Этот инструмент — стандарт де-факто для разметки. Тоже используют живых людей, но предоставляют им более продвинутые инструменты, нежели Толока или MTurk, чтобы размечать было проще.

Помимо стандартных bounding boxes, семантической сегментации, полигонов, они еще размечают точки, например, для складов или полок в магазинах. Как видите, рынок подобных решений пока очень узкий, но потенциал довольно большой, потому что бутылочное горлышко AI сейчас — это именно хорошо размеченные данные. И кроме шуток, за этим действительно будущее.

Если знаете еще другие инструменты, пишите в комментариях.

Телеграм: t.me/ainewsline

Источник: habrahabr.ru



		Специалист по разметке данных
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-04-01 15:14 ит новости, техническое зрение Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных. На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных. Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка. Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта. В этом посте хочется сделать обзор тех инструментов (коммерческих и бесплатных), которые пытаются облегчить жизнь этих прекрасных людей — разметчиков данных. LabelMe Начнем с того, что это бесплатная тулза, сделанная в MIT. С ее помощью вы можете размечать свои изображения: это могут быть просто bounding boxes, либо попиксельная сегментация. По сути дела, это некий UI, в котором можно выделять контуры изображения и ставить точки. Это всё. Ничего более умного эта тулза не умеет. Еще одна фича: у LabelMe есть мобильное приложение. Можно не терять зря время в метро, электричке, автобусе, на скучной лекции. Prodi.gy Одна из самых продвинутых active learning-систем. Идея такова, что уже заранее натренированная модель с минимальным обучением пытается разметить ваши данные, а ваша задача — лишь направлять ее. Целевая аудитория — аналитики и инженеры, которым необходимо качественно размечать данные, а больших ресурсов на внешних разметчиков у них нет. UX, по словам разработчиков, похож на Тиндер. Тулза просит разметить только те объекты, по которым она не уверена. Вроде как, они делают больший упор на работу с текстами, но computer vision у них тоже есть, в том числе работа с видео. Сами мы ею не пользовались. Она платная. Стоимость лицензии начинается от 390$. Scale API Эти ребята подходят к процессу разметки в формате “под ключ”. Дайте нам ваши данные, мы отдадим их нашим разметчикам, проконтролируем качество, дадим вам уже результат через какое-то время. И всё это через API. Естественно, это тоже не бесплатный инструмент. Например, разметка одной картинки для задачи семантической сегментации (то есть выделить на изображении объекты контурами и сказать, что это за объекты) будет стоить 8$, если вам нужно срочно, или 6.4$ если готовы подождать. Supervise.ly Этот инструмент предназначен для упрощения разметки типа instance segmentation. Под капотом (по ощущению) работает что-то вроде Polygon-RNN. Вы выделяете прямоугольниками объекты, а система сама находит границы объекта внутри прямоугольника. У них есть разные натренированные сетки под разные предметные области. Ребята ещё умеют генерировать синтетические данные из игр и разбавлять ими реальные, если реальные сложно достать. Плюс они же могут завести всю свою систему внутри вашего энтерпрайза, чтобы данные от вас никуда не уходили. В общем, по ощущениям, может хорошо ускорять работу разметчика. Но это не точно. Mechanical Turk Сила индусской разметки на кончиках ваших пальцев. Дорого для вас, копейки для них, плохое качество, непонятный quality control, но все пользуются. В России есть аналог — Яндекс.Толока. Когда-нибудь мы возьмем интервью у пользователей этих платформ и узнаем, как проходит их рабочий день, в чем возникают сложности. CrowdFlower Этот инструмент — стандарт де-факто для разметки. Тоже используют живых людей, но предоставляют им более продвинутые инструменты, нежели Толока или MTurk, чтобы размечать было проще. Помимо стандартных bounding boxes, семантической сегментации, полигонов, они еще размечают точки, например, для складов или полок в магазинах. Как видите, рынок подобных решений пока очень узкий, но потенциал довольно большой, потому что бутылочное горлышко AI сейчас — это именно хорошо размеченные данные. И кроме шуток, за этим действительно будущее. Если знаете еще другие инструменты, пишите в комментариях. Телеграм: t.me/ainewsline Источник: habrahabr.ru Комментарии:

Специалист по разметке данных

Комментарии: