Модели ИИ разрушаются при обучении на рекурсивно сгенерированных данных |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-07-31 12:08 Стабильная диффузия произвела революцию в создании изображений из описательного текста. GPT-2 (ссылка 1 ), GPT-3(.5) (ссылка 2 ) и GPT-4 (ссылка 3 ) продемонстрировали высокую производительность при выполнении различных языковых задач. ChatGPT представил публике такие языковые модели. Теперь ясно, что генеративный искусственный интеллект (ИИ), такой как большие языковые модели (LLM), никуда не денется и существенно изменит экосистему онлайн-текста и изображений. Здесь мы рассмотрим, что может случиться с GPT-{ n }, если LLM предоставит большую часть текста, найденного в Интернете. Мы обнаружили, что неразборчивое использование контента, сгенерированного моделью, в обучении вызывает необратимые дефекты в получаемых моделях, в которых исчезают хвосты исходного распределения контента. Мы называем этот эффект «коллапсом модели» и показываем, что он может возникать в LLM, а также в вариационных автоэнкодерах (VAE) и моделях гауссовой смеси (GMM). Мы строим теоретическую интуицию, лежащую в основе этого явления, и изображаем его повсеместное распространение среди всех изученных генеративных моделей. Мы показываем, что к этому следует относиться серьезно, если мы хотим сохранить преимущества обучения на основе крупномасштабных данных, собранных из Интернета. Действительно, ценность данных, собранных о реальном взаимодействии человека с системами, будет возрастать при наличии контента, созданного LLM, в данных, полученных из Интернета. Основной Разработка LLM очень сложна и требует большого количества обучающих данных. Тем не менее, хотя нынешние LLM 2 , 4 , 5 , 6 , включая GPT-3, обучались преимущественно на тексте, созданном человеком, ситуация может измениться. Если данные обучения большинства будущих моделей также будут извлечены из Интернета, то они неизбежно будут обучаться на данных, созданных их предшественниками. В этой статье мы исследуем, что происходит, когда текст, созданный, например, с помощью версии GPT, формирует большую часть набора обучающих данных следующих моделей. Что происходит с поколениями GPT GPT-{ n } при увеличении n ? Мы обнаруживаем, что неразборчивое обучение на данных, полученных с помощью других моделей, вызывает «коллапс модели» — дегенеративный процесс, при котором со временем модели забывают истинное базовое распределение данных, даже при отсутствии сдвига в распределении с течением времени. Мы приводим примеры коллапса моделей для GMM, VAE и LLM. Мы показываем, что со временем модели начинают терять информацию об истинном распределении, которое сначала начинается с исчезновения хвостов, а изученное поведение на протяжении поколений сходится к точечной оценке с очень небольшой дисперсией. Более того, мы показываем, что этот процесс неизбежен даже для случаев с почти идеальными условиями длительного обучения, т. е. отсутствием ошибки оценивания функции. Мы также кратко упомянем две близкие концепции для моделирования коллапса из существующей литературы: катастрофическое забывание, возникающее в рамках непрерывного обучения без выполнения задач 7, и отравление данных 8 , 9, злонамеренно приводящее к непреднамеренному поведению. Ни один из них не может полностью объяснить явление коллапса модели, поскольку условия фундаментально разные, но они дают другой взгляд на наблюдаемое явление и более подробно обсуждаются в дополнительных материалах . Наконец, мы обсудим более широкие последствия краха модели. Мы отмечаем, что доступ к исходному распределению данных имеет решающее значение: в задачах обучения, в которых важны хвосты основного распределения, необходим доступ к реальным данным, созданным человеком. Другими словами, масштабное использование LLM для публикации контента в Интернете приведет к загрязнению сбора данных для обучения их преемников: данные о взаимодействии людей с LLM будут становиться все более ценными. Что такое коллапс модели? Определение 2.1 (коллапс модели) Коллапс модели — это дегенеративный процесс, затрагивающий поколения изученных генеративных моделей, в котором генерируемые ими данные в конечном итоге загрязняют обучающий набор следующего поколения. Обучаясь на искаженных данных, они неправильно воспринимают реальность. Процесс изображен на рис. 1а . Мы выделяем два особых случая: ранний коллапс модели и поздний коллапс модели. При раннем коллапсе модели модель начинает терять информацию о хвостах распределения; При позднем коллапсе модели модель сходится к распределению, мало похожему на исходное, часто с существенно уменьшенной дисперсией. Этот процесс происходит из-за трех конкретных источников ошибок, которые накапливаются на протяжении поколений и вызывают отклонения от исходной модели:
Каждое из вышеперечисленных событий может привести к ухудшению или улучшению коллапса модели. Большая мощность аппроксимации может даже оказаться обоюдоострым мечом: лучшая выразительность может противодействовать статистическому шуму, что приводит к хорошей аппроксимации истинного распределения, но она также может усугубить шум. Чаще всего мы получаем каскадный эффект, при котором отдельные неточности объединяются, вызывая рост общей ошибки. Например, переоснащение модели плотности приводит к неправильной экстраполяции модели и присвоению регионов с высокой плотностью регионам с низкой плотностью, не охваченным поддержкой обучающего набора; Затем они будут дискретизироваться с произвольной частотой. Стоит отметить, что существуют и другие типы ошибок. Например, на практике компьютеры имеют ограниченную точность. Теперь мы обратимся к математической интуиции, чтобы объяснить, как вышеизложенное приводит к наблюдаемым ошибкам, как различные источники могут объединяться и как мы можем количественно оценить среднее расхождение модели. Теоретическая интуиция Здесь мы даем теоретическое представление о явлении коллапса модели. Мы утверждаем, что процесс коллапса модели является универсальным для генеративных моделей, которые рекурсивно обучаются на данных, сгенерированных предыдущими поколениями. Мы количественно оцениваем источники ошибок, обсуждавшихся в предыдущем разделе, исследуя две математические модели, которые оказываются достаточно простыми, чтобы обеспечить аналитические выражения для интересующих величин, но также изображают явление коллапса модели: дискретное распределение при отсутствии функциональной выразительности. и ошибки аппроксимации, а также многомерную гауссову аппроксимацию, отражающую совместную функциональную выразительность и статистические ошибки. Далее мы проиллюстрируем влияние всех трех вместе для более сложной настройки оценки плотности в гильбертовых пространствах в дополнительных материалах . Общий стохастический процесс, который мы рассматриваем и который называем обучением на данных поколений, заключается в следующем. Набор данных в поколении i — это ({{mathcal{D}}}_{i}) , состоящий из независимых и одинаково распределенных случайных величин ({X}_{j}^{i}) с распределением p i , j ? {1,…, M i } обозначает размер набора данных. Переходя от поколения i к поколению i + 1, мы стремимся оценить распределение выборок в ({{mathcal{D}}}_{i}) с аппроксимацией ({p}_{{ heta }_{i+1}}) . Этот шаг мы называем функциональной аппроксимацией , я})) . Набор данных ({{mathcal{D}}}_{i+1}) затем генерируется путем выборки из ({p}_{i+1}={alpha }_{i}{p} _{{ heta }_{i+1}}+{eta }_{i}{p}_{i}+{gamma }_{i}{p}_{0}) , с не -отрицательные параметры ? i , ? i , ? i суммируются до 1, то есть они представляют собой доли используемых данных от разных поколений. Это соответствует смешиванию данных, поступающих из исходного распределения ( ? i ), данных, используемых предыдущим поколением ( ? i ), и данных, сгенерированных новой моделью ( ? i ). Мы называем это этапом выборки. Для будущих математических моделей мы считаем ? i = ? i = 0, то есть используются данные только одного шага, тогда как численные эксперименты проводятся при более реалистичном выборе параметров. Дискретные распределения с точной аппроксимацией В этом подразделе мы рассматриваем дискретное распределение вероятностей при отсутствии ошибок функциональной аппроксимации и выразительности, то есть ({mathcal{F}}(p)=p) . В этом случае коллапс модели возникает только из-за статистических ошибок на этапе выборки. Сначала хвосты (события малой вероятности) начинают исчезать из-за малой вероятности их выборки, и со временем поддержка распределения сжимается. Обозначая размер выборки как M , если мы рассматриваем состояние i с вероятностью (qle frac{1}{M}) , ожидаемое количество выборок со значением i, исходящих от этих событий, будет меньше 1. На практике , это означало бы, что мы теряем информацию о них. Рассматривая в более общем плане некоторое состояние i с вероятностью q , используя стандартную условную вероятность, мы можем показать, что вероятность потери информации (то есть отсутствия выборки данных при некотором поколении) равна 1 - q , подразумевая, что распределение должно сходиться к дельта-функция, расположенная в некотором состоянии, с вероятностью попадания в определенное состояние, равной вероятности выборки этого состояния из исходного распределения. Это можно показать непосредственно, рассмотрев процесс ({{f{X}}}^{i} o {mathcal{F}}, o ) ({p}_{i+1} o {{f{X}}}^{i+1}) как цепь Маркова, поскольку X i +1 зависит только от X i . Более того, если все ({X}_{j}^{i}) имеют одинаковое значение, то в следующем поколении аппроксимированное распределение будет в точности дельта-функцией и, следовательно, все ({X}_ {j}^{i+1}) также будет иметь то же значение. Это означает, что цепь Маркова содержит хотя бы одно поглощающее состояние и поэтому с вероятностью 1 она сходится к одному из поглощающих состояний. Это общеизвестный факт, доказательство которого приведено в «Дополнительных материалах» . Для этой цепочки единственными поглощающими состояниями являются состояния, соответствующие дельта-функциям. В результате, следя за развитием коллапса модели, мы гарантированно окажемся в постоянном состоянии, потеряв всю информацию исходного распределения при поглощении цепочки. Этот аргумент также работает в целом, поскольку представления с плавающей запятой являются дискретными, что делает цепь Маркова по параметрам модели дискретной. Таким образом, пока параметризация модели допускает дельта-функции, мы доберемся до нее, потому что из-за ошибок выборки единственными возможными поглощающими состояниями являются дельта-функции. На основании вышеизложенного мы видим, что в модели должны возникнуть как ранний коллапс модели, при котором отсекаются только маловероятные события, так и поздний коллапс модели, при котором процесс начинает схлопываться в единый режим. случай дискретных распределений с идеальной функциональной аппроксимацией. Многомерный гауссиан После обсуждения дискретных распределений мы теперь представляем более общий результат, который можно показать в рамках гауссовой аппроксимации, в которой каждое поколение аппроксимируется с использованием несмещенных оценок среднего значения и дисперсии. Аналогичный результат справедлив и в более общем плане, который мы подробно рассмотрим в «Дополнительных материалах» . Теорема 3.1 (коллапс гауссовой модели) Предположим, что исходные данные выбираются из распределения ({{mathcal{D}}}_{0}) (не обязательно гауссово) с ненулевой выборочной дисперсией. Предположим, что X n подбираются рекурсивно с использованием несмещенного выборочного среднего и оценок дисперсии из предыдущего поколения, ({X}_{j}^{n}| {mu }_{n},{Sigma }_{n} sim {mathcal{N}}({mu }_{n},{Sigma }_{n})) , с фиксированным размером выборки. Затем, $${mathbb{E}}[{{mathbb{W}}}_{2}^{2}({mathcal{N}}({mu }_{n},{Sigma }_ {n}),{{mathcal{D}}}_{0})] o infty ;,{Sigma }_{n},mathop{ o }limits^{{ m {a}}.{ m{s}}.},0,,{ m{a}}{ m{s}},,n o infty ,$$ в котором ({{mathbb{W}}}_{2}) обозначает расстояние Вассерштейна-2 между истинным распределением и его аппроксимацией в поколении n . Другими словами, это означает, что аппроксимация n -го поколения не только расходится на сколь угодно большое расстояние от исходной, но также схлопывается до нулевой дисперсии по мере увеличения числа поколений с вероятностью 1. Результаты очень аналогичны тем, которые наблюдаются в дискретный случай, причем эта теорема иллюстрирует эффект коллапса модели на поздней стадии, на котором процесс начинает схлопываться до нулевой дисперсии. Также можно увидеть коллапс модели на ранней стадии, и заинтересованному читателю рекомендуется обратиться к дополнительным материалам для более глубокого обсуждения. Коллапс модели в языковых моделях В этом разделе мы оцениваем влияние коллапса модели на языковые модели. Мы рассмотрим более интерпретируемые модели машинного обучения — VAE и GMM — в дополнительных материалах . Код общедоступен по ссылке. 13 . Коллапс модели универсален для различных семейств моделей машинного обучения. Тем не менее, если небольшие модели, такие как GMM и VAE, обычно обучаются с нуля, LLM — это другое дело. Их переобучение с нуля настолько затратно, что их обычно инициализируют с помощью предварительно обученных моделей, таких как BERT 4 , RoBERTa 5 или GPT-2 (ссылка 2 ), которые обучаются на больших текстовых корпусах. Затем они настраиваются на выполнение различных последующих задач 14 . Здесь мы исследуем, что происходит с языковыми моделями, когда они последовательно настраиваются с использованием данных, сгенерированных другими моделями. Мы можем легко повторить все эксперименты, описанные в этой статье, с более крупными языковыми моделями без точной настройки, чтобы продемонстрировать коллапс модели. Учитывая, что обучение одной умеренно большой модели производит CO 2 в два раза больше, чем за всю жизнь американцев (ссылка 15 ), мы решили не проводить такой эксперимент и вместо этого сосредоточиться на более реалистичных условиях для проверки концепции. Обратите внимание, что даже на проведение языковых экспериментов, описанных в этой статье, ушли недели. Мы оцениваем наиболее распространенную настройку обучения языковой модели — настройку тонкой настройки, при которой каждый цикл обучения начинается с предварительно обученной модели с последними данными. Данные здесь взяты из другой точно настроенной предварительно обученной модели. Поскольку обучение ограничено созданием моделей, близких к исходной предварительно обученной модели, а точки данных, сгенерированные моделями, обычно будут давать очень небольшие градиенты, здесь можно ожидать, что модель будет меняться лишь умеренно после точной настройки. Мы дорабатываем причинно-языковую модель OPT-125m, доступную Meta через Hugging Face 6 . Мы настраиваем его на наборе данных wikitext2 16 . Для генерации данных из обученных моделей мы используем пятисторонний лучевой поиск. Мы блокируем обучающие последовательности длиной 64 токена; затем для каждой последовательности токенов в обучающем наборе мы просим модель предсказать следующие 64 токена. Мы просматриваем весь исходный набор обучающих данных и создаем искусственный набор данных того же размера. Поскольку мы просматриваем весь исходный набор данных и прогнозируем все блоки, если бы в модели была ошибка 0, она создала бы исходный набор данных wikitext2. Обучение для каждого поколения начинается с генерации исходных обучающих данных. Каждый эксперимент проводится пять раз, и результаты отображаются в виде пяти отдельных запусков с разными начальными значениями случайности. Исходная модель, точно настроенная с использованием реальных данных wikitext2, получает среднее значение недоумения 34 по сравнению с базовым уровнем нулевого выстрела, равным 115, то есть она успешно обучается задаче. Наконец, чтобы быть максимально реалистичными, мы используем наиболее эффективную модель для исходной задачи, оцененную с использованием исходного набора проверки wikitext2, в качестве базовой модели для последующих поколений, а это означает, что на практике наблюдаемый коллапс модели может быть даже более выраженный. Здесь мы рассматриваем две разные настройки:
Оба режима обучения приводят к снижению производительности наших моделей, однако мы обнаружили, что обучение с использованием сгенерированных данных возможно, и модели могут успешно изучить (некоторые части) основной задачи. В частности, из рис. 1 и их 3D-версии в «Дополнительных материалах» , мы видим, что происходит коллапс модели, поскольку плотность образцов с низкой перплексностью начинает накапливаться на протяжении поколений. Это, в свою очередь, делает вероятным, что с течением времени выборочные данные аналогичным образом схлопнутся до дельта-функции. инжир. 1: Общее описание механизма обратной связи в процессе обучения. а ) Коллапс модели относится к дегенеративному процессу обучения, при котором модели со временем начинают забывать невероятные события, поскольку модель отравляется собственной проекцией реальности. Здесь предполагается, что данные курируются человеком и изначально чисты; затем обучается модель 0 и из нее выбираются данные; на шаге n данные добавляются к общим данным с шага n -1, и эта комбинация используется для обучения модели n . Данные, полученные с помощью выборки методом Монте-Карло, в идеале должны быть статистически близки к оригиналу при условии, что процедуры подбора и выборки безупречны. Этот процесс отражает то, что происходит в реальной жизни с Интернетом: данные, сгенерированные моделями, становятся всеобъемлющими. б , в — Производительность моделей ОПТ-125м разных поколений, оцененная с использованием оригинального набора тестовых данных wikitext2. Слева показаны гистограммы сложностей каждой отдельной последовательности обучения данных, созданных разными поколениями, по результатам оценки самой первой модели, обученной на реальных данных. На протяжении поколений модели имеют тенденцию создавать образцы, которые с большей вероятностью будет создавать исходная модель, обученная на реальных данных. В то же время у последующих поколений появляется гораздо более длинный хвост. Более поздние поколения начинают создавать образцы, которые никогда не были бы созданы по исходной модели, то есть они начинают неправильно воспринимать реальность, основанную на ошибках, внесенных их предками. Те же графики показаны в 3D в «Дополнительных материалах» . Справа показаны средняя запутанность и ее стандартное отклонение для каждого независимого прогона. Ось X относится к поколению модели. «Реальный» относится к «модели 0», обученной на исходном наборе данных wikitext2; модель 1 обучалась на данных, полученных моделью 0, модель 2 обучалась на данных, полученных моделью 1, и так далее, при этом все сгенерированные наборы данных были равны по размеру. Мы обнаружили, что модели, обученные на сгенерированных данных, способны изучить часть исходной задачи, но с ошибками, что видно по увеличению недоумения. Здесь важно отметить, что наблюдаемое поведение соответствует общей интуиции, установленной в разделе «Теоретическая интуиция». Точнее, во всех экспериментах обучение поколений осуществляется только на конечном (обычно небольшом) числе поколений, тогда как утверждения раздела «Теоретическая интуиция» в основном представлены в пределе поколений, стремящихся к бесконечности. Однако, как видно из экспериментов с ВАЭ и ГММ в «Дополнительных материалах» , сходимость к дельта-функциям и конкретные скорости такой сходимости сильно связаны со спецификой рассматриваемой задачи, и полный коллапс может произойти, а может и не произойти, даже после небольшого числа шагов. Это дополнительно теоретически проиллюстрировано в «Дополнительных материалах» , в которых потенциально заметное отклонение от исходной модели может произойти даже через несколько поколений. На рисунках 1b,c слева показаны гистограммы затруднений отдельных точек данных, созданных моделями разных поколений, оцененные с помощью первой модели, разработанной с использованием реальных обучающих данных wikitext2. Здесь, на протяжении поколений, модели имеют тенденцию создавать больше последовательностей, чем исходная модель могла бы создать с более высокой вероятностью. Наблюдаемый эффект аналогичен эффекту, описанному для VAE и GMM в дополнительных материалах , в котором — на протяжении поколений — модели начали производить образцы, которые с более высокой вероятностью будут производиться исходной моделью. В то же время мы обнаруживаем, что сгенерированные данные имеют гораздо более длинные хвосты, что позволяет предположить, что некоторые данные никогда не будут созданы исходной моделью — это ошибки, которые накапливаются в результате обучения на данных поколений. Пример 1 Пример текстовых выходных данных модели ОПТ-125м, на которую повлияло разрушение модели: модели ухудшаются с течением времени, поэтому каждое новое поколение обучается на данных, полученных предыдущим поколением.
Абляция: повторения Мы обнаружили, что данные, генерируемые языковыми моделями в наших экспериментах, в конечном итоге содержат большое количество повторяющихся фраз, как в примере 1. Проблема повторения наблюдалась почти во всех моделях генерации текста 17 , 18 , и, чтобы исключить это, В связи с коллапсом модели мы также приводим численные эксперименты, в которых моделям явно рекомендуется создавать неповторяющиеся последовательности со штрафом за повторение 2,0. Мы обнаружили, что это приводит к тому, что модели создают продолжения с более низкими оценками, чтобы избежать использования повторов, что в результате приводит к тому, что последующие модели работают еще хуже. Затруднения модели смещаются от поколения к поколению в сторону более вероятных последовательностей токенов, что измеряется с использованием модели, обученной на исходном реальном распределении данных. Дополнительные иллюстрации представлены в дополнительных материалах . В частности, применение этого правила для экспериментов LLM приводит к удвоению недоумения по сравнению с оригиналом. Модели по-прежнему подвержены коллапсу моделей, если не больше. Описанный процесс демонстрирует, что тонкая настройка языковых моделей не ограничивает последствия коллапса модели, а модели, которые подвергаются тонкой настройке, также уязвимы. Мы обнаружили, что с течением времени модели имеют тенденцию создавать более вероятные последовательности из исходных данных и начинают вводить свои собственные невероятные последовательности, то есть ошибки. Обсуждение Теперь мы обсуждаем последствия коллапса модели для базовой динамики обучения LLM. Долгосрочные атаки на языковые модели, отравляющие языковые модели, не новы. Например, мы стали свидетелями создания ферм кликов, контента и троллей, формы человеческих «языковых моделей», чья работа состоит в том, чтобы вводить в заблуждение социальные сети и поисковые алгоритмы. Негативный эффект, который эти атаки-отравители оказали на результаты поиска, привел к изменениям в алгоритмах поиска. Например, Google понизил рейтинг фермерских статей 19 , уделив больше внимания контенту, созданному надежными источниками, такими как образовательные домены, тогда как DuckDuckGo полностью удалил их 20 . Что отличает появление LLM, так это масштабы, в которых такое отравление может произойти, когда оно будет автоматизировано. Сохранение способности LLM моделировать события с низкой вероятностью имеет важное значение для справедливости их прогнозов: такие события часто актуальны для маргинализированных групп. События с низкой вероятностью также жизненно важны для понимания сложных систем 21 . Наша оценка предполагает «преимущество первопроходца», когда речь идет о таких моделях обучения, как LLM. В нашей работе мы демонстрируем, что обучение на выборках из другой генеративной модели может вызвать сдвиг распределения, который со временем приводит к коллапсу модели. Это, в свою очередь, приводит к тому, что модель неправильно воспринимает основную задачу обучения. Чтобы поддерживать обучение в течение длительного периода времени, нам необходимо убедиться, что доступ к исходному источнику данных сохраняется, а дополнительные данные, не генерируемые LLM, остаются доступными с течением времени. Необходимость отличать данные, генерируемые LLM, от других данных, поднимает вопросы о происхождении контента, который сканируется из Интернета: неясно, как контент, генерируемый LLM, можно отслеживать в масштабе. Одним из вариантов является координация всего сообщества, чтобы гарантировать, что различные стороны, участвующие в создании и развертывании LLM, обмениваются информацией, необходимой для решения вопросов происхождения. В противном случае может стать все труднее обучать новые версии LLM без доступа к данным, которые были получены из Интернета до массового внедрения технологии, или прямого доступа к данным, генерируемым людьми в больших масштабах. Доступность данных Код генерации данных для экспериментов GMM доступен по ссылке. 13 . Данные, использованные для экспериментов VAE, доступны в ссылке. 22 . Данные, использованные для экспериментов LLM, доступны в ссылке. 16 . Доступность кода Код для всех экспериментов находится в открытом доступе по ссылке. 13 . Источник: www.nature.com Комментарии: |
|