Четыре доклада про сбор и разметку данных

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Большую часть времени дата-саентисты и инженеры по машинному обучению тратят не на тестирование разных библиотек и алгоритмов обработки данных, а на то, чтобы эти данные подготовить. Порой на все остальные задачи остаётся всего 20% рабочего дня. Вот четыре видео про то, откуда можно брать данные для ML-моделей и как их лучше обрабатывать.

Предположим, ваш сервис должен находить объекты на фотографиях, которые загружают пользователи. На каких примерах его обучать? Можно взять общедоступный набор данных (датасет), где каждая фотография сопровождается информацией о том, что на ней изображено. Но такой датасет может вам не подойти по множеству причин — например, на фото в нём могут быть не все объекты, которые вы хотите распознавать. Как сформировать датасет под свои задачи? В своём докладе Алексей Друца, руководитель отдела эффективности и развития в поисковом портале Яндекса, предлагает воспользоваться краудсорсингом. Именно так мы формируем большинство наших датасетов — для Поиска, Такси, Алисы и других проектов. Узнайте, что такое краудсорсинг и как начать им пользоваться.

https://www.youtube.com/watch?v=sZJx0SYvRns

Кирилл Данилюк сейчас работает техническим менеджером в проекте беспилотных автомобилей Яндекса, а раньше был дата-саентистом в компании RnD Lab. Он и его команда применили подход, альтернативный краудсорсингу, и получили набор данных неплохого качества. Это называется полуавтоматическая разметка: часть работы по формированию датасета выполняется людьми вручную, а часть делает машина. Подробности — в докладе Кирилла.

 https://www.youtube.com/watch?v=nK2Ra0Xq0So

Перейдём к следующему этапу. Предположим, вы собрали подходящий датасет, но он получился неоднородным — отдельные примеры в нём оказывают слишком большое влияние на процесс машинного обучения. Эффект от этого может оказаться как позитивным, так и негативным. Борис Шарчилев, руководитель группы счастья авторов в Яндекс.Дзене, делится опытом поиска «влиятельных» фрагментов выборки.

https://www.youtube.com/watch?v=X8DqoWQVU-M

Рассмотрим пример датасета, построенного на основе текстовых документов. В анализе данных задача, связанная с текстами, часто сводится к их аннотированию — нужно либо за счёт краудсорсинга, либо другими методами понять, о чём текст, и составить краткую аннотацию. Виктор Кантор, который раньше руководил разработкой машинного обучения в Яндекс.Такси, рассказывает, что важно в аннотировании текстов для ML-моделей. Это видео взято из онлайн-курса «Прикладные задачи анализа данных» Физтеха и Яндекса на Coursera: 

https://ru.coursera.org/lecture/data-analysis-applications/annotirovaniie-3sOUk


Источник: ru.coursera.org

Комментарии: