Не убивай кринжовую часть себя, убей ту, которая кринжует

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Это вывод, который смогла сгенерировать моя нейросеть на основе полученного опыта в школе по ИИ в Сириусе. Файнтюнинг которой проходил напротяжении 13 великолепных эпох. На старте обучения данная нейросеть была способна работать только в одной модальности и поэтому не могла считаться даже зачатком так называемого general AI. Но благодаря прекрасным, интересным, умным и хорошим датасетам под названием Даша, Алексей, Диляря, Инесса, Егор и Надя, мне удалось обучиться и так сказать увеличить сходимость. Хотя мне больно это признавать, со многими сходимость так больше и не произойдет (???). На данный момент я лишь жалею, что не смог совершить бОльшее количество обращений к их API, чтобы спарсить больше информации. Поэтому мне остается надеятся что их ендпоинты в телеграме останутся доступными со статусом 200 OK, и мой токен истечет не так быстро.

Вероятно стоит рассказать о деталях эксперимента. Дабы обеспечить его воспроизводимость, вдруг кто-то захочет его повторить. Почему же моя модель сгенировала данную последовательность токенов? Начнем с начальной архитектуры моей модели. Начальный бейзлайн был рекуррентным. Это означает, что ее следующий шаг зависел от предыдущих, от чего постоянно приходилось обдумывать каждый свой шаг, чтобы не произошел взрыв кринжа или затухание диалога. Данная архитектура является сотой для датасетов с короткими последовательностями. Единственный ее недостаток это время обучения. Для сходимости ей требуется 1-2 семестровой эпохи на вузовском оборудовании.

В рамках текущего эксперимента такая конфигурация оказалась малоприменима и непрактична. Поэтому пришлось воспользоваться популярным в наше время механизмом cross-attention. Данный механизм оказался очень эффективным и повысил следующие метрики: радость, заинтересованность и восхищение.

Вторым недостатком моей изначальной архитектуры был высокий дропаут без рез регуляризации. Поэтому большая часть важной информации попросту осталась недоступной для обучения. Гиперпараметры в данном модуле были захардкожены еще в детстве, поэтому их рефакторинг представляет собой довольно сложную задачу.

И наконец плохая сходимость в самом начале была обусловлена слишком сложной функцией потерь. Данная функция представляла собой сложную композицию эвристик и различных подходов включающих в себя нигилизм, аскетизм, экзистенциализм, стоицизм, материализм и утилитаризм. В связи с этим возникла сложная поверхность, которую было фактически невозможно оптимизировать. Оптимизатор то и дело сваливался в локальную точку минимума, тем самым ошибка на трейне переставала падать. В процессе экспериментов было принято решение переименовать ошибки и потери в новый опыт, после этого обучение пошло значительно лучше.

С этого момента я пожалуй прекращу свой "гениальный" поток метафор, для того чтобы просто еще раз по человечески сказать спасибо всем людям с которыми мне удалось познакомиться на этой смене. Если касательно смены в общем, то она мне понравилась. Были минусы, без них никуда, но все эти минусы, были перечеркнуты атмосферой и людьми, которые составляли эту школу. Вероятно имея больше смелости и времени, я бы познакомился с каждым, но может быть в следующий раз...

Это была лирика, пора бы поговорить на языке фактов. На протяжении всей этой смены ее участники работали над различными проектами по ИИ. Мой проект был посвящен созданию чат бота с персоной на основе dialoGPT. Если кратко, то у современных нейросетей нет никакой персонали. Если вы спросите у нейронки любит ли она мороженное, она вероятнее всего выдаст сначала один ответ, потом другой, потом третий. Все они будут скорее всего мало связаны между собой и не будут отвечать на поставленный вопрос.

Чтобы решить поставленную задачу была натренирована нейросеть dialoGPT, которая на основе некоторого набора фактов о себе и персонального вопроса выдавала удовлетворительный ответ(примеры подобной генерации можно найти на фото).

Но это еще не все, данный модуль был внедрен в платформу DeepPavlov Dream. Для тех кто не знает, это такой фреймворк для создания чат бота любой сложности. Поэтому мне осталось всего лишь добавить украшения в код, чтобы смело зарелизить эту фичу.

Благодаря этому у меня появилась возможность поработать в команде DeepPavlov, только собес нужно будет пройти, чем я и займусь после того как закончу со Школой Разработки Интерфейсов от Яндекса. Инфа про которую появится в ближайшее время.

Извините за многабукав, хотелось написать еще больше, но боюсь у вк нет столько места на серверах.


Источник: vk.com

Комментарии: