Новости нейросетей: кто такой ПРовидец-7 и почему качество выборки важнее, чем её размер.

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Возможно, многие подумали, что наша тема с нейросетями, типирующими по текстам, заброшена. Вовсе нет, работа идёт! Хотя не так быстро, как хотелось.

Я обучил новую нейросетевую типирующую программу, названную ПРовидец-7. Она основана на 7 нейросетях, определяющих 7 основных ПР: логоэтику, сенсуицию, вертность, нальность, ительность, сходящесть и атику. То есть, по сравнению с Контактёрычем, теперь добавлена ещё статика/динамика.

Обучающая выборка практически по всем ПР — примерно в 2 раза больше, чем у Контактёрыча: порядка 30 человек и порядка 20 тысяч фраз по каждому полюсу каждого ПР. Исключение — статика/динамика, по которой выборка более скромная (ибо статику или динамику достоверно определить намного сложнее): 12 человек и 5400 фраз по каждому полюсу.

Обучающие тексты взяты из разных источников:

- страницы ВК;

- художественные тексты писателей: как известных, так и моих знакомых;

- сообщения на Социофоруме;

- тексты добровольцев, участвующих в нашем прошлом эксперименте с нейросетями.

Результаты пробного тестирования, в котором ПРовидец-7 сравнивался с Контактёрычем — неоднозначные:

- сенсуицию, ительность и атику ПРовидец определяет лучше Контактёрыча (последнее неудивительно: у Контактёрыча даже нет нейросети для типирования по атике);

- вертность и нальность — примерно так же;

- логоэтику и сходящесть — хуже Контактёрыча!

Последнее странно: обучающая выборка в 2 раза больше, а качество типирования ниже! Видимо, причина в чуть меньшей достоверности данных обучающей выборки. Подчеркнём, что именно "чуть": грубо говоря, у Контактёрыча достоверность каждого человека из обучающей выборки по каждому ПР — порядка 90%, а у ПРовидца — порядка 85%. Цифры даны навскидку, но суть именно такова: достоверность данных (за счёт их большей массовости) снизилась процентов на 5, зато объём обучающей выборки увеличился в 2 раза. Но качество типирования в итоге — примерно такое же!

Видимо, надо слегка почистить выборку по логоэтике и сходящести, удалив из неё наименее достоверных людей, и переобучить эти две нейросети.

P.S. Добровольцы с текстами для нового эксперимента нейросетевого типирования по-прежнему нужны. Все, кто уже сдали тексты: я про вас помню, вы есть в списке. Но участников по-прежнему маловато.


Источник: vk.com

Комментарии: