Синтетические данные и экономика знаний. О том, как удержать качество

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Мы продолжаем серию постов авторства студентов УрГЭУ. Сегодня узнаем немного больше об обучении ИИ от студента 2 курса направления "Экономическая безопасность" Корабейникова Ильи.

Современная динамика обучения языковых моделей определяется ростом доли алгоритмически сгенерированного контента и смещением роли источников. Увеличение присутствия синтетического текста в открытой сети подтверждается мониторингом NewsGuard. Число сайтов, систематически публикующих ИИ?сгенерированные материалы, за период с 2023 по 2024 год выросло от нескольких десятков до более чем тысячи, охватывая множество языков и тематик. Параллельно Adobe фиксирует миллиарды изображений, созданных в Firefly - семействе генеративных моделей искусственного интеллекта, разработанных компанией Adobe - в течение первого года работы сервиса, что масштабирует долю синтетической графики в потоках пользовательского и профессионального контента. Совокупно эти тенденции повышают вероятность «самоподпитки» ИИ-моделей синтетическими данными, смещая баланс источников от человеко?созданных к алгоритмически порождаемым и усиливая требования к указанию синтетического контента, например, с помощью метаданных или тегов. Возникает необходимость в определении терминов, обозначении допущений, которые формирует нейросеть, при генерации контента, особенно важно чётко указывать источники данных.

Эмпирические наблюдения указывают на возрастание доли синтетических данных и на эффект обучения моделей на собственных выходах. Это повышает риск деградации качества генерируемого контента, а также баз данных, которые используют модели для генерации. Данная проблема возникает из-за сдвига распределений и закрепления ошибок. В академической литературе такие явления описываются как автогения данных, когда синтетические данные, созданные моделями, повторно попадают в обучение и формируют замкнутую самоподдерживающуюся петлю без опоры на исходные человеческие выборки, и модельный коллапс, то есть деградация модели из-за обучения на собственных или синтетических данных, проявляющаяся усреднением ответов, потерей редких сигналов и накоплением ошибок. Большая часть риска связана не с самой синтетикой, а с отсутствием источников происхождения, неточным указанием авторства и расплывчатой ответственностью за качество данных.

На ранних этапах обучения большие нейросети в основном учились на текстах, написанных людьми. Источники отмечали по уровню надежности, чтобы отделять проверенные материалы от сомнительных. Фильтрация и удаление повторов экономили вычислительные ресурсы и улучшали качество модели. Это видно по метрике «перплексия», которая показывает, насколько хорошо модель предсказывает слова, чем ниже показатель перплексии, тем лучше модель работает.

Текущая интеграция алгоритмических помощников в коммуникации, обработку изображений и программирование изменила производственную функцию создания контента. По данным GitHub, среди разработчиков, использующих GitHub Copilot, в среднем по поддерживаемым языкам программирования около 46% их кода генерируется Copilot, в некоторых языках этот показатель выше . Такое ускорение сопровождается ростом доли повторяющихся шаблонов и уменьшением доли редких случаев, то есть выполняются всё более однотипные задачи. Это повышает будущие затраты на поддержание качества и увеличивает вероятность накопления систематических ошибок.

Экономика знаний претерпевает структурные сдвиги. Каналы доступа смещаются в сторону ИИ-ассистентов, что уменьшает прямой трафик к первичным источникам и искажает ценовые сигналы. Европейский закон об искусственном интеллекте закрепляет требования к прозрачности и к аутентичности . Для устойчивого рынка данных требуются четкие права на данные, проверяемая атрибуция, механизмы отказа от использования и справедливые схемы компенсаций. Важны форматы коллективного управления активами данных, включая кооперативы и трасты.

Синтетические данные, под которыми понимаются искусственно созданные наборы информации, имитирующие свойства реальных данных, целесообразно применять там, где наблюдается дефицит первичных примеров. Это касается языков с малым числом носителей, редких сценариев безопасности и стресс тестов. Эффект достигается только при строгой валидации и при аккуратном смешивании с первичными данными. Ключевым элементом управления выступают наблюдаемые показатели.

Возможные траектории различаются по экономическим параметрам. Пессимистичный сценарий предполагает рост затрат на контроль качества, снижение потребительского излишка и ухудшение соотношения сигнал/шум, то есть отношение доли достоверной информации к уровню случайных помех и ошибок, чем ниже оно, тем труднее отличить полезные данные от шума и принять верное решение. Реалистичный сценарий включает формирование платёжных потоков за первичные данные, внедрение инфраструктуры аутентичности, то есть совокупности процессов и технологий, которые подтверждают подлинность данных и их источников, и снижение внешних эффектов через стандарты происхождения, то есть общие правила прослеживаемости и атрибуции пути данных от создания до использования. Оптимистичный сценарий предполагает институциональную нормализацию информационного пространства, актуальные пайплайны обучения, с контролем происхождения, то есть устойчивые воспроизводимые и документированные процессы от сбора и версионирования данных до обучения тестирования и развертывания с автоматическими проверками качества и укрепление ответственности поставщиков данных. По оценке McKinsey & Company за 2023 год потенциал совокупной прибавки к мировой добавленной стоимости от генеративных технологий лежит в диапазоне от 2,6 до 4,4 триллиона долларов в год при адекватной организационной адаптации.

Качество моделей определяется качеством и прозрачностью входящих данных. Инвестиции в курированные наборы, в инфраструктуру происхождения и в прозрачные договоренности с производителями знаний являются необходимым условием устойчивости экосистемы. Приоритет следует отдавать воспроизводимости, измеримости и справедливому распределению вознаграждений. Это минимизирует риски деградации и создает базу для долгосрочного роста производительности.

Технологии сильны лишь настолько, насколько честно мы обращаемся с первичным знанием. Мы защищаем редкие культуры и уязвимые группы, спрашиваем согласие и делимся выгодой справедливо.


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: