Размышления о высококачественных данных, собранных людьми |
||||||||||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-04-08 13:39 Высококачественные данные — это «топливо» для современных моделей глубокого обучения. Большая часть данных, размеченных под конкретные задачи, создается живыми людьми — аннотаторами, которые занимаются классификацией или проводят RLHF-разметку для LLM alignment. Многие из представленных в этой публикации методов машинного обучения могут помочь улучшить качество данных, но главным остается внимание к деталям и скрупулёзность. Сообщество разработчиков машинного обучения осознает ценность высококачественных данных, но почему-то складывается впечатление, что «все хотят работать над моделями, а не над данными» (Sambasivan et al. 2021). Рисунок 1. Два направления обеспечения высокого качества данных.В процессе ручного сбора данных выполняется определенная последовательность этапов, каждый из которых вносит вклад в качество датасета:
Рисунок 2. Контроль качества — это набор действий, позволяющих повысить качество, работая с атрибутами, указанными в модели качества. Мудрость толпы В 1907 году в журнале Nature была опубликована короткая статья с названием Vox populi (изначально «Vox populi, vox Dei») — латинская фраза, означающая «голос народа». В публикации рассказывалось о конкурсе на ежегодной выставке: организаторы предлагали людям угадать вес большого быка. За достаточно близкую догадку можно было выиграть приз. Среднее значение ответов расценивалось как «vox populi» и в конечном итоге оказалось очень близко к настоящему весу животного. Автор статьи сделал такой вывод: «Мне кажется, такой результат говорит о большей надежности демократического мнения, чем можно было ожидать». Наверное, это стало самым ранним упоминанием того, как работает краудсорсинг («мудрость толпы»). Почти сто лет спустя Крис Кэллисон-Берч (Chris Callison-Burch) провел исследование (2009) по использованию Amazon Mechanical Turk (AMT) для оценки задач машинного перевода (Machine Translation, MT) неспециалистами и по созданию новых «золотых стандартов» перевода с их помощью. Схема оценки была проста: каждому аннотатору показывали исходное предложение, эталонный перевод и пять переводов пяти систем MT. Участников просили ранжировать пять переводов от лучшего к худшему. Каждую задачу выполняло пять аннотаторов. Разумеется, существуют спамеры, создающие низкокачественные аннотации, чтобы оптимизировать объем (выполненных задач прим. переводчика), а значит, и свой заработок. Поэтому при измерении договоренностей между специалистами и неспециалистами необходимо применять различные схемы взвешивания, чтобы снизить вклад спамеров: (1) «взвешенные по специалистам»: использовать коэффициент консенсуса со специалистами на золотом наборе из 10 примеров; (2) «взвешенные по неспециалистам»: использовать коэффициент консенсуса с остальными аннотаторами для всего датасета. В более сложной задаче аннотаторов-неспециалистов попросили создать новые «золотые» эталонные переводы. Кэллисон-Берч спроектировал задачу в два этапа: на первом этапе создавались новые переводы с учетом результатов работы МТ, а на втором фильтровались переводы, которые могли показаться сгенерированными системой MT. Корреляция между переводами специалистов и приглашенных аннотаторов оказалась выше, чем между переводами специалистов и систем MT. Рисунок 3. (Слева) Коэффициент консенсуса, измеренный сравнением каждой пары переводимых предложений («A > B», «A=B», «A < B»), то есть случайный коэффициент консенсуса равен 1/3. Верхняя граница установлена по коэффициенту консенсуса между специалистами. (Справа) Сравнение оценки BLEU между переводами из различных источников. Переводы специалистов предоставлены переводчиками LCD (Linguistic Data Consortium)Консенсус оценщиков Мы часто воспринимаем аннотирование как стремление к единственной непреложной истине и пытаемся оценить качество по одному золотому ответу и постоянным стандартам. Общепринятой практикой для поиска является сбор множества меток от ряда оценщиков. Учитывая, что каждый специалист работает с разным уровнем качества, можно использовать средневзвешенное значение аннотаций, но взвешивать его нужно по уровню (баллу) квалификации. Эта оценка квалификации часто аппроксимируется по тому, насколько часто один оценщик соглашается с другими.
Затем мы можем для максимизации наблюдаемых данных получить в виде вероятности предельных величин, где — матрица аннотаторов, — матрица показателей компетентности, а — матрица истинной разметки:
Для максимизации приведённой выше вероятности предельных величин можно применить или EM (Expectation–maximization), или VB (Variational Bayes). В процессе оптимизации EM на этапе M к частично учитываемым потерям перед нормализацией прибавляется фиксированное значение . При обучении VB к применяется симметричное априорное бета-распределение, а к — симметричное априорное распределение Дирихле. При восстановлении правильных ответов мы можем взять результат мажоритарного голосования, взвешенного на оценку аннотатора. Разногласия аннотаторов и две парадигмы Описанный выше процесс агрегирования опирается на допущение, что существует единственный «золотой» ответ, поэтому мы соответствующим образом можем оценивать показатели аннотаторов. Однако во многих темах, особенно в сферах безопасности, социальных взаимодействий или культуры, люди могут обоснованно не соглашаться друг с другом. Тогда вопрос сводится к тому, насколько мы хотим применять строгие правила вместо принятия разнообразия мнений.
Позже Rottger et al. (2021) сформулировали эту разницу в две противоположные парадигмы аннотирования данных для субъективных задач NLP.
Рисунок 4. Корреляции между аннотациями специалистов и неспециалистов сильно варьируются. Zhang et al. (2023) предложили таксономию для анализа первопричин расхождения мнения аннотаторов. Среди перечисленных причин есть необходимость избегать расхождения вследствие стохастических погрешностей или несогласованности на индивидуальном уровне. Если аннотатору несколько раз дают одно и то же задание, но его оценка меняется, то можно говорить об ошибке из-за человеческого фактора. Основанная на этом представлении методика обратного преобразования свертки расхождений (Gordon et al. 2021) позволяет отделять стабильные мнения от ошибок, привязав мнение каждого человека к его собственной первичной разметке. Это приводит к внутренней согласованности в ответах аннотатора. Рисунок 5. Таксономия причин расхождений аннотаторов Обратное преобразование свёртки расхождений зависит от графового вероятностного моделирования:
В случае классификации -категорий, процесс сэмплирования генеративной модели выполняется следующим образом:
Имея истинные и , которые можно вычислить по данным, обновим распределение основных меток:
Новое тестовое множество, сэмплированное из , отображает основные метки с удалённым индивидуальным шумом несогласованности. Его можно использовать для сравнения как тестовое множество без шума.
Эксперимент привёл к созданию датасета GHC (Gab Hate Corpus). Он показал, что многозадачная модель достигает лучшей оценки F1, а также способна естественным образом обеспечивать оценку неопределённости прогнозов, коррелирующую с расхождением аннотаций. Рисунок 6. Иллюстрация различных архитектур для моделирования разметки множества аннотаторов Jury Learning (Gordon et al. 2022) имитирует процесс с участием присяжных, моделируя поведение при разметке различных аннотаторов, обусловленное их характеристиками. Мы начинаем обучение модели с датасета с метками и демографическими характеристиками каждого разметчика. Модель должна научиться прогнозировать метки, созданные отдельными аннотаторами, каждый из которых действует как потенциальный присяжный. В момент принятия решения исследователи могут указать состав группы присяжных, чтобы определить стратегию сэмплирования. Окончательное решение принимается агрегированием меток присяжных после нескольких процессов. Рисунок 7. Иллюстрация того, как работает обучение присяжных Модель обучения присяжных — это DCN (Deep & Cross network), часто применяемая в случае работы с рекомендациями. Она совместно обучается для изучения эмбеддинга комментариев, эмбеддинга аннотаторов и эмбеддинга групп (характеристик аннотатора). Текстовое содержимое обрабатывается предварительно обученным BERT. Он также подвергается совместной тонкой настройке, но в течение более короткого периода, чтобы избежать переобучения. Рисунок 8. Архитектура модели DCN для обучения присяжных Эксперимент проводился с датасетом токсичного контента. Он сравнивает обучение присяжных с исходной моделью (BERT с тонкой настройкой для прогнозирования меток индивидуальных аннотаторов без применения метаданных). Показатели измеряются в MAE (mean absolute error, средней абсолютной погрешности). Обучение присяжных стабильно обгоняет по показателям исходную модель без учёта аннотаторов при полном тестовом множестве, а также для каждого сегмента группы. Рисунок 9. Результаты эксперимента по сравнению исходной моделью с обучением присяжных После создания датасета можно использовать различные методики для идентификации ошибочных меток согласно динамике обучения. Мы будем рассматривать только те методики, которые находят и исключают примеры данных с потенциально неверными метками, а не те, которые позволяют обучать модель на шумных данных. Функции влияния Функции влияния — это классическая методика из робастной статистики (Hampel, 1974) для измерения влияния примеров обучающих данных. В методике используются описания того, как меняются параметры модели при увеличении веса примера обучающих данных на бесконечно малую величину. Koh и Liang (2017) предложили применять эту концепцию к глубоким нейросетям. При примерах данных в обучающем датасете для параметр модели оптимизируется для минимизации потерь: . Изменение параметров модели после удаления единичного примера данных обозначается как , где . Однако такие вычисления для каждой выборки были бы слишком затратными. Один из способов аппроксимировать это заключается в вычислении изменения параметров с учётом небольшого увеличения веса на . По определению влияние повышения веса на принимает такой вид:
где и .
При помощи функции влияния мы можем измерить влияние одного примера данных на параметры модели и функцию потерь в замкнутой форме. Это может помочь в аппроксимации обучения при исключении по одному без действительного выполнения повторного обучения. Чтобы выявить неправильно размеченные данные, можно измерить , аппроксимировав ошибку прогнозирования на при удалении из обучающего датасета. Рисунок 10. Значения функций влияния, соответствующие результатам обучения при исключении по одному для 10-class MNISTУчитывая замкнутость формы, функции влияния всё равно сложно масштабировать из-за трудоёмкости вычисления произведения векторов Гессе. Grosse et al. (2023) вместо этого экспериментировали с аппроксимацией EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature; George et al., 2018). Изменения прогнозов во время обучения Ещё одна ветвь методик отслеживает изменения в прогнозах модели при обучении. Она выявляет случаи, которым сложно обучиться. Data Maps (Swayamdipta et al., 2020) для анализа качества датасета отслеживает два атрибута динамики поведения модели во время обучения:
Рисунок. 11. Data map для обучающего датасета SNLI, основанная на классификаторе RoBERTa Сложные для обучения сэмплы (низкая достоверность, низкая дисперсия) получают ошибочные метки с большей вероятностью. Исследователи провели эксперимент с датасетом WinoGrande, где был изменён 1% данных разметки. После повторного обучения изменённые экземпляры перешли в области с более низкой достоверностью и чуть более высокой дисперсией. Это указывает на то, что сложные для обучения области содержат сэмплы с ошибочными метками. С этим знанием мы можем обучить классификатор на равном количестве изменённых меток и очистить сэмплы при помощи одной только оценки достоверности (непонятно, почему в статье не использовали в качестве признаков и достоверность, и дисперсию). Этот простой классификатор шума можно затем применить к исходному датасету, чтобы выявить потенциально ошибочно размеченные экземпляры. Рисунок 12. Примеры данных с высокой достоверностью и низкой дисперсией после изменения меток переместились в область с низкой достоверностью и чуть более высокой дисперсией Однако мы не должны считать все сложные для обучения сэмплы некорректными. На самом деле в статье приводится гипотеза, что неоднозначные (с высокой дисперсией) и сложные для обучения (с низкой достоверностью и дисперсией) сэмплы более информативны для обучения. Эксперименты показали, что они хороши для обобщения OOD за счет более качественные результаты при оценке OOD по сравнению со 100% обучающего датасета. Чтобы изучить, имеют ли нейросети тенденцию к забыванию ранее изученной информации, Mariya Toneva et al. (2019) провели эксперимент. Ученые отслеживали прогнозы модели для каждого сэмпла в процессе обучения и подсчитали переходы каждого сэмпла от правильной к неправильной классификации и наоборот. Затем сэмплы были разбиты на категории:
Исследователи обнаружили, что существует большое количество незабываемых примеров. Примеры с шумными метками или изображения с «необычными» признаками (которые сложно классифицировать визуально) оказываются самыми забываемыми примерами. Эксперименты опытным путём подтвердили, что незабываемые примеры можно спокойно удалить, не скомпрометировав при этом точность модели. В реализации эксперимента событие забывания считается только тогда, когда сэмпл включается в текущую группу обучения. Исследователи вычисляют забывание среди описаний одного примера в последующих минигруппах. Количество событий забывания на сэмпл достаточно стабильно для разных порождающих значений, а забываемые примеры имеют небольшую тенденцию быть впервые изученными позже в процессе обучения. Также оказалось, что события забывания переносимы на протяжении периода обучения и между архитектурами. Pleiss, et al. (2020) разработали методику AUM (Area under the Margin) для выявления ошибочных меток на основании этого допущения: допустим, изображение с птицей (BIRD) ошибочно размечено как «собака» (DOG). Обновление градиента будет стимулировать обобщение от других изображений BIRD к этому изображению BIRD, в то время как метка DOG создаёт некорректный сигнал, стимулируя обновление выполняться в другом направлении. Поэтому в сигналах обновления градиента возникает напряжение между обобщением и (ошибочным) прогнозом. Допустим, у нас есть датасет классификации . Пусть — это логит, соответствующий классу в эпохе . Допуск в эпохе — это разность между назначенным логитом и следующим наибольшим логитом:
Отрицательный допуск обозначает ошибочный прогноз, а большой положительный допуск предполагает высокую достоверность правильного прогноза. Гипотеза заключается в том, что ошибочно размеченные сэмплы будут иметь меньший допуск, чем корректные сэмплы из-за напряжения между обобщением при помощи стохастического градиентного спуска из-за других сэмплов.
Рисунок 13. Как AUM пороговых сэмплов помогает отделить ошибочно размеченные сэмплы Рисунок 14. Погрешность тестирования на CIFAR 10/100 со случайно ошибочно размеченными сэмплами; сравнение разных методик фильтрации данных или обучения на шумных данных Шумная кросс-валидация Методика NCV (Noisy Cross-Validation) (Chen et al., 2019) случайным образом делит датасет пополам, а затем идентифицирует сэмплы данных как «чистые», если их метки соответствуют метке, спрогнозированной моделью, обученной только на другой половине датасета. Ожидается, что чистые сэмплы более надёжны. INCV (Iterative Noisy Cross-Validation) итеративно выполняет NCV, добавляя больше чистых сэмплов к надёжному множеству кандидатов и удаляя более шумные сэмплы. Рисунок 15. Алгоритм INCV (итеративной шумной кросс-валидации)[1] Francis Galton “Vox populi” Nature 75, 450-451 (1907). [2] Sambasivan et al. “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI" CHI 2021 [3] Chris Callison-Burch. “Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazon’s Mechanical Turk” EMNLP 2009 [4] Rottger et al. “Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks” NAACL 2022. [5] Aroyo & Welty “Truth Is a Lie: Crowd Truth and the Seven Myths of Human Annotation” AI Magazine 36.1: 15-24 (2015). [6] Hovy et al. “Learning Whom to Trust with MACE” NAACL-HLT 2013. [7] Wang et al. “All that Agrees Is Not Gold: Evaluating Ground Truth Labels and Dialogue Content for Safety” 2023. [8] Zhang et al. “A Taxonomy of Rater Disagreements: Surveying Challenges & Opportunities from the Perspective of Annotating Online Toxicity” arXiv preprint arXiv:2311.04345 (2023). [9] Davani et al. “Dealing with disagreements: Looking beyond the majority vote in subjective annotations” ACL 2022. [10] Gordon et al. “Jury Learning: Integrating Dissenting Voices into Machine Learning Models” CHI 2022. [11] Gordon et al. “The Disagreement Deconvolution: Bringing Machine Learning Performance Metrics In Line With Reality” CHI 2021 [12] Daniel et al. 2018 “Quality Control in Crowdsourcing: A Survey of Quality Attributes, Assessment Techniques, and Assurance Actions” ACM Computing Surveys (CSUR), 51(1), 1-40 (2018). [13] Koh & Liang. “Understanding Black-box Predictions via Influence Functions” ICML 2017. [14] Grosse et al. “Studying Large Language Model Generalization with Influence Functions” arXiv preprint arXiv:2308.03296 (2023). [15] Swayamdipta et al. “Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics” EMNLP 2020. [16] Toneva, et al. “An Empirical Study of Example Forgetting during Deep Neural Network Learning” ICLR 2019. [17] Pleiss, et al. “Identifying Mislabeled Data using the Area Under the Margin Ranking” NeuriPS 2020. [18] Chen et al. “Understanding and utilizing deep neural networks trained with noisy labels” ICML 2019. Источник: habr.com Комментарии: |
|||||||||||||