Что такое валидационные данные и для чего они используются?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


При обучении нейронной сети конечная цель состоит в том, чтобы ваша модель хорошо справилась с определенной задачей, получив данные, которые она никогда раньше не видела.

Хорошая модель должна уметь обобщать поставленную задачу, чтобы она могла точно работать с этими совершенно новыми входными данными.

Именно поэтому мы разделили имеющиеся данные на три части: данные для обучения, данные для валидации и данные для тестирования.

Обучающие данные

Как правило, около 70% всего набора данных выделяется в качестве обучающих данных. Это данные, на которых будет непосредственно обучаться модель. В течение каждой эпохи обучения обучающие данные подаются в модель, обычно по частям, называемым батчами, для экономии времени. На основе этих данных обновляются веса модели.

Валидационные данные

Валидационные данные обычно составляют около 10% от общего набора данных. В конце каждой эпохи обучения модель оценивается по валидным данным. Мы смотрим на результаты этих оценок, чтобы диагностировать и устранить внутренние проблемы модели, такие как переобучение, например.

Основная цель валидационных данных - помочь инженеру в процессе настройки гиперпараметров.

Данные тестирования

Данные тестирования занимают около 20% всего набора данных. Этот раздел вашего набора данных служит для окончательной оценки работы модели.

Модель оценивается на этих данных только после того, как все проблемы с переобучением диагностированы и устранены на основе оценок валидационных данных.

В чем же разница между валидационными и тестовыми данными?

Истинная цель разделения набора данных на эти три части заключается в том, чтобы дать модели обобщенное и непредвзятое понимание проблемного пространства.

Модель никогда не может быть действительно беспристрастной, но цель каждого инженера - максимально приблизиться к этому результату. В процессе обучения модель, к сожалению, получает предвзятое отношение к определенным решениям.

Именно поэтому мы сохраняем небольшую часть наших данных в качестве валидационного набора. Чем больше предвзятости мы можем устранить, тем лучше обобщается наша модель. Простое наличие только обучающих и тестовых данных приведет к тому, что модель, скорее всего, не сможет обобщить новые данные.

Валидационный набор данных позволяет нам настраивать гиперпараметры и диагностировать проблемы, не допуская смещения модели по отношению к данным тестирования, что позволяет объективно оценить модель.


Источник: medium.com

Комментарии: