Яндекс открывает датасеты Толоки для исследователей

2019-07-02 09:07

алгоритмы машинного обучения, системы технического зрения, большие данные big data

Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.
Интересный факт: чем сложнее технология искусственного интеллекта, тем больше ей нужна помощь человека. Люди размечают изображения по категориям, чтобы натренировать компьютерное зрение; люди оценивают релевантность страниц поисковым запросам; люди преобразуют речь в текст, чтобы голосовой помощник научился понимать и говорить. Человеческие оценки нужны машине, чтобы дальше она работала без людей и лучше людей.

Раньше многие компании собирали такие оценки исключительно с помощью специально обученных сотрудников — асессоров. Но со временем задач в области машинного обучения стало слишком много, а сами задачи в массе своей перестали требовать особых знаний и опыта. Так появился спрос на помощь «толпы» (crowd). Но самостоятельно найти большое количество случайных исполнителей и работать с ними не каждому под силу. Краудсорсинговые платформы решают эту проблему.

Яндекс.Толока? (правильно произносить именно так, с ударением на последний слог) — одна из крупнейших в мире краудсорсинговых платформ. У нас более 4 млн зарегистрированных пользователей. Более 500 проектов каждый день собирают оценки с нашей помощью. Приятный факт: в этом году на секции Data Labeling на конференции Data Fest все шесть докладчиков из разных компаний упоминали Толоку как источник разметки для своих проектов.

О применении Толоки в бизнесе уже много сказано. Сегодня мы поговорим о другом нашем направлении, которое считаем не менее полезным.

Исследования в Толоке

Краудсорсинг и вообще задача массового сбора человеческих разметок существует примерно столько же, сколько и промышленное применение машинного обучения. Это область, на которую во всех технологических компаниях тратятся огромные деньги. Но при этом почему-то именно она сильно недоинвестирована с точки зрения исследований: о работе с краудом, в отличие от других областей ML, относительно мало серьёзных исследований и статей. ??

Мы бы хотели это изменить. Наша команда видит Толоку не только как инструмент для решения прикладных задач, но и как площадку для научных исследований в разных предметных областях.

Публичные датасеты Толоки

Мы хотим поддержать научное сообщество и привлечь исследователей в Толоку, поэтому начинаем публиковать наборы данных для некоммерческих, академических целей. Они могут быть интересны исследователям разных направлений: здесь и чат-боты, и данные для тестирования моделей агрегации вердиктов толокеров, для лингвистических исследований, для задач компьютерного зрения. Расскажем о них:

Toloka Persona Chat Rus

Датасет из 10 тыс. диалогов поможет исследователям диалоговых систем отработать подходы к обучению чат-ботов. Мы подготовили его совместно с iPavlov — проектом лаборатории нейронных систем и глубокого обучения МФТИ, который проводит исследования в области разговорного искусственного интеллекта и разрабатывает DeepPavlov, открытую библиотеку для создания диалоговых ассистентов. Датасет Persona Chat Rus содержит профили с описанием личности человека и диалоги между участниками исследования. Как собирались данные
На первом этапе с помощью пользователей Толоки мы собрали профили, содержащие сведения о человеке, его увлечениях, профессии, семье и событиях жизни, и отобрали те, что подходят для диалогов.

На втором этапе мы предложили участникам сыграть роль человека, описанного одним из таких профилей, и пообщаться друг с другом в мессенджере. Цель диалога — узнать больше о собеседнике и рассказать о себе. Полученные диалоги проверили другие исполнители.

Toloka Aggregation Relevance 2

Датасет позволяет исследовать методы контроля качества в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок исполнителей, собранных на проекте «Релевантность (2 градации)» в 2016 году. Вы найдёте здесь как обезличенные оценки толокеров, так и эталонные оценки, которые помогут измерить качество ответов. Изучение этих данных позволит проследить, как мнение исполнителей влияет на качество итоговой оценки, какие методы агрегации результатов лучше использовать и сколько мнений нужно собрать, чтобы получить достоверный ответ.

Как собирались данные
Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, возможность воспользоваться поисковыми системами и варианты ответов: «Релевантен», «Нерелевантен», «Не отображается».

Toloka Aggregation Relevance 5

Этот датасет такой же, как предыдущий, только оценки здесь собирались не по бинарной, а по пятибалльной шкале в проекте «Релевантность (5 градаций)». Датасет содержит более миллиона оценок.

Как собирались данные
Оценка документов по пяти градациям более сложная и требует большей квалификации. Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, кнопки для использования поисковых систем и пять вариантов ответа: «Витальный», «Полезный», «Релевантный +», «Релевантный –», «Нерелевантный».

Основной показатель качества — точность агрегированных ответов, оцениваемая на основе контрольных заданий (голденсетов). У некоторых заданий в датасете не один, а несколько правильных ответов. Любой из таких ответов считается правильным. Точность по основным методам агрегации:
? Мнение большинства — 89,92%.
? Dawid-Skene — 90,72%.
? GLAD — 90,16%.

Lexical Relations from the Wisdom of the Crowd (LRWC)

Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима). Собран исследователем Дмитрием Усталовым в 2017 году.

Как собирались данные
Для исследования взято 300 наиболее употребляемых в современном русском языке существительных. С помощью тезаурусов (РуТез, RuWordNet) и автоматизированных методов образования гиперонимов (Watset, Hyperstar) получено 10?600 родо-видовых пар (типа «котёнок» — «млекопитающее»). Участникам исследования нужно было ответить на вопрос: «Правда ли, что котёнок — это разновидность млекопитающего?» Чтобы грамотно сформулировать вопрос, гиперонимы поставили в родительный падеж при помощи морфологического анализатора и генератора pymorphy2.

Каждую пару разметили семь русскоязычных исполнителей старше 20 лет. По результатам, полученным после агрегации всех оценок, 4576 пар слов получили положительные ответы, а 6024 — отрицательные. Интересно, что участники исследования оказались более единодушны в выборе отрицательного ответа, чем положительного.

Human-Annotated Sense-Disambiguated Word Contexts for Russian

В датасете собрано 2562 контекстных значения 20 слов, представляющих наибольшее разнообразие смысловых значений. Исследование проведено Дмитрием Усталовым в 2017 году.

Как собирались данные
Участникам исследования демонстрировалось слово и пример его употребления в речи. Нужно было определить значение слова в контексте высказывания и выбрать один из вариантов ответа.

Toloka Business ID Recognition

Для этого датасета мы подготовили 10 тыс. фотографий информационных табличек организаций и текстовый файл с номерами (ИНН и ОГРН), которые были указаны на табличке. Обучившись на этих данных, модель компьютерного зрения сможет распознавать последовательность цифр на изображении. Датасет предоставлен сервисом Яндекс.Справочник.

Как собирались данные
Сначала мы запустили задание в мобильном приложении Толоки: исполнителям предлагалось приехать по адресу, отмеченному на карте, найти организацию и сфотографировать её информационную табличку. Это и другие полевые задания помогают поддерживать актуальной информацию в Яндекс.Справочнике.

Затем качество выполненных заданий проверили другие исполнители. Фотографии, на которых указаны ИНН и ОГРН, мы отправили на расшифровку. Толокеры перепечатали эти номера с фотографий, после чего мы обработали результаты и сформировали датасет.

Toloka Aggregation Features

Датасет содержит около 60 тыс. оценок в 1 тыс. заданий с правильными ответами почти для всех заданий. Исполнители классифицировали сайты по пяти категориям по наличию контента для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории.

Выбрать и скачать датасеты можно по ссылке: https://toloka.yandex.ru/datasets/. Мы не планируем останавливаться на этом и призываем исследователей обратить внимание на краудсорсинг и рассказывать о своих проектах.

Телеграм: t.me/ainewsline

Источник: habr.com



		Яндекс открывает датасеты Толоки для исследователей
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-07-02 09:07 алгоритмы машинного обучения, системы технического зрения, большие данные big data Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях. Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы. Интересный факт: чем сложнее технология искусственного интеллекта, тем больше ей нужна помощь человека. Люди размечают изображения по категориям, чтобы натренировать компьютерное зрение; люди оценивают релевантность страниц поисковым запросам; люди преобразуют речь в текст, чтобы голосовой помощник научился понимать и говорить. Человеческие оценки нужны машине, чтобы дальше она работала без людей и лучше людей. Раньше многие компании собирали такие оценки исключительно с помощью специально обученных сотрудников — асессоров. Но со временем задач в области машинного обучения стало слишком много, а сами задачи в массе своей перестали требовать особых знаний и опыта. Так появился спрос на помощь «толпы» (crowd). Но самостоятельно найти большое количество случайных исполнителей и работать с ними не каждому под силу. Краудсорсинговые платформы решают эту проблему. Яндекс.Толока? (правильно произносить именно так, с ударением на последний слог) — одна из крупнейших в мире краудсорсинговых платформ. У нас более 4 млн зарегистрированных пользователей. Более 500 проектов каждый день собирают оценки с нашей помощью. Приятный факт: в этом году на секции Data Labeling на конференции Data Fest все шесть докладчиков из разных компаний упоминали Толоку как источник разметки для своих проектов. О применении Толоки в бизнесе уже много сказано. Сегодня мы поговорим о другом нашем направлении, которое считаем не менее полезным. Исследования в Толоке Краудсорсинг и вообще задача массового сбора человеческих разметок существует примерно столько же, сколько и промышленное применение машинного обучения. Это область, на которую во всех технологических компаниях тратятся огромные деньги. Но при этом почему-то именно она сильно недоинвестирована с точки зрения исследований: о работе с краудом, в отличие от других областей ML, относительно мало серьёзных исследований и статей. ?? Мы бы хотели это изменить. Наша команда видит Толоку не только как инструмент для решения прикладных задач, но и как площадку для научных исследований в разных предметных областях. Публичные датасеты Толоки Мы хотим поддержать научное сообщество и привлечь исследователей в Толоку, поэтому начинаем публиковать наборы данных для некоммерческих, академических целей. Они могут быть интересны исследователям разных направлений: здесь и чат-боты, и данные для тестирования моделей агрегации вердиктов толокеров, для лингвистических исследований, для задач компьютерного зрения. Расскажем о них: Toloka Persona Chat Rus Датасет из 10 тыс. диалогов поможет исследователям диалоговых систем отработать подходы к обучению чат-ботов. Мы подготовили его совместно с iPavlov — проектом лаборатории нейронных систем и глубокого обучения МФТИ, который проводит исследования в области разговорного искусственного интеллекта и разрабатывает DeepPavlov, открытую библиотеку для создания диалоговых ассистентов. Датасет Persona Chat Rus содержит профили с описанием личности человека и диалоги между участниками исследования. Как собирались данные На первом этапе с помощью пользователей Толоки мы собрали профили, содержащие сведения о человеке, его увлечениях, профессии, семье и событиях жизни, и отобрали те, что подходят для диалогов. На втором этапе мы предложили участникам сыграть роль человека, описанного одним из таких профилей, и пообщаться друг с другом в мессенджере. Цель диалога — узнать больше о собеседнике и рассказать о себе. Полученные диалоги проверили другие исполнители. Toloka Aggregation Relevance 2 Датасет позволяет исследовать методы контроля качества в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок исполнителей, собранных на проекте «Релевантность (2 градации)» в 2016 году. Вы найдёте здесь как обезличенные оценки толокеров, так и эталонные оценки, которые помогут измерить качество ответов. Изучение этих данных позволит проследить, как мнение исполнителей влияет на качество итоговой оценки, какие методы агрегации результатов лучше использовать и сколько мнений нужно собрать, чтобы получить достоверный ответ. Как собирались данные Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, возможность воспользоваться поисковыми системами и варианты ответов: «Релевантен», «Нерелевантен», «Не отображается». Toloka Aggregation Relevance 5 Этот датасет такой же, как предыдущий, только оценки здесь собирались не по бинарной, а по пятибалльной шкале в проекте «Релевантность (5 градаций)». Датасет содержит более миллиона оценок. Как собирались данные Оценка документов по пяти градациям более сложная и требует большей квалификации. Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, кнопки для использования поисковых систем и пять вариантов ответа: «Витальный», «Полезный», «Релевантный +», «Релевантный –», «Нерелевантный». Основной показатель качества — точность агрегированных ответов, оцениваемая на основе контрольных заданий (голденсетов). У некоторых заданий в датасете не один, а несколько правильных ответов. Любой из таких ответов считается правильным. Точность по основным методам агрегации: ? Мнение большинства — 89,92%. ? Dawid-Skene — 90,72%. ? GLAD — 90,16%. Lexical Relations from the Wisdom of the Crowd (LRWC) Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима). Собран исследователем Дмитрием Усталовым в 2017 году. Как собирались данные Для исследования взято 300 наиболее употребляемых в современном русском языке существительных. С помощью тезаурусов (РуТез, RuWordNet) и автоматизированных методов образования гиперонимов (Watset, Hyperstar) получено 10?600 родо-видовых пар (типа «котёнок» — «млекопитающее»). Участникам исследования нужно было ответить на вопрос: «Правда ли, что котёнок — это разновидность млекопитающего?» Чтобы грамотно сформулировать вопрос, гиперонимы поставили в родительный падеж при помощи морфологического анализатора и генератора pymorphy2. Каждую пару разметили семь русскоязычных исполнителей старше 20 лет. По результатам, полученным после агрегации всех оценок, 4576 пар слов получили положительные ответы, а 6024 — отрицательные. Интересно, что участники исследования оказались более единодушны в выборе отрицательного ответа, чем положительного. Human-Annotated Sense-Disambiguated Word Contexts for Russian В датасете собрано 2562 контекстных значения 20 слов, представляющих наибольшее разнообразие смысловых значений. Исследование проведено Дмитрием Усталовым в 2017 году. Как собирались данные Участникам исследования демонстрировалось слово и пример его употребления в речи. Нужно было определить значение слова в контексте высказывания и выбрать один из вариантов ответа. Toloka Business ID Recognition Для этого датасета мы подготовили 10 тыс. фотографий информационных табличек организаций и текстовый файл с номерами (ИНН и ОГРН), которые были указаны на табличке. Обучившись на этих данных, модель компьютерного зрения сможет распознавать последовательность цифр на изображении. Датасет предоставлен сервисом Яндекс.Справочник. Как собирались данные Сначала мы запустили задание в мобильном приложении Толоки: исполнителям предлагалось приехать по адресу, отмеченному на карте, найти организацию и сфотографировать её информационную табличку. Это и другие полевые задания помогают поддерживать актуальной информацию в Яндекс.Справочнике. Затем качество выполненных заданий проверили другие исполнители. Фотографии, на которых указаны ИНН и ОГРН, мы отправили на расшифровку. Толокеры перепечатали эти номера с фотографий, после чего мы обработали результаты и сформировали датасет. Toloka Aggregation Features Датасет содержит около 60 тыс. оценок в 1 тыс. заданий с правильными ответами почти для всех заданий. Исполнители классифицировали сайты по пяти категориям по наличию контента для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории. Выбрать и скачать датасеты можно по ссылке: https://toloka.yandex.ru/datasets/. Мы не планируем останавливаться на этом и призываем исследователей обратить внимание на краудсорсинг и рассказывать о своих проектах. Телеграм: t.me/ainewsline Источник: habr.com Комментарии:

Яндекс открывает датасеты Толоки для исследователей

Комментарии: