Крутой лайфхак для работы с LLM

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Я опять сегодня ругалась и спорила с Максом, потому что на простой запросик об анализе дурацких действий Польши (закрываем границу, открываем границу, срочно призываем поляков покинуть Белоруссию) он мне выдал классическую западно-центричную чушь. Но, честно говоря, я сама поленилась написать запрос в формате нормального промпта. Так, накарябала что-то одним пальцем... Ну потом, как обычно, он исправился на 3-й итерации и ответил как положено - в нейтральном взвешенном стиле.

Ну и потом начал извиняться и что-то бормотать про разницу культурологических матриц, и он не виноват, и про его прошивку в ходе RLHF (Reinforcement Learning from Human Feedback). А я, поскольку сегодня сильно ленюсь (вчера было 2 защиты аттестационных работ на двух курсах и я устала), и хотелось просто болтать, написала ему вот что:

- Я тебе сейчас расскажу про разницу культур на примере моего путешествия по Польше.

Это был день молодежи и ежегодное паломничество в Ченстохову, по Польше шли разные колонны молодежи из разных стран. В нашу русскую колонну прибился американец - красивый высокий парень. Ему было интересно ближе познакомиться с русскими. У него было такое интересное приспособление - губная гармошка у губ и он пел в пути: "Don't worry, be happy", в общем, в целом мы хорошо общались. Он был таким же как мы - молодые, веселые, безбашенные.

А потом был привал, человек по 15 мы сели вокруг импровизированных столов на земле, расстелили что-то типа скатерти, на нее положили бутерброды, еще что-то. И было, например, 15 бутеров с колбасой, 15 с сыром и тп. Русские быстро молча посчитали - сколько кому причитается чего и брали по одному бутерброду с разными начинками. А наш американский друг просто посмотрел на стол и стал есть один бутерброд с колбасой за другим :)) Сколько ему хотелось. Мы с открытым ртом на него смотрели, но молчали. Вот тебе и разница культур...

__________________________

Если по делу - условно у LLM есть два режима:

Режим 1: Генеративный (forward generation)

• Модель получает запрос в промпте и достраивает текст слева направо.

• Работает по вероятностям: какое следующее слово максимально уместно, исходя из контекста.

• Модель в этом режиме не «знает», хорош ли ответ — она просто генерирует наиболее вероятную по своей статистике комбинацию слов.

Режим 2: Критический/рефлексивный (self-critique, self-reflection)

• Модель получает готовый текст (свой или чужой - неважно) на вход и задачу: «оцени», «проверь», «критически отнесись».

• Она переключается с режима «достраивания текста» на режим сравнения и фильтрации: берёт свой же ответ (или чужой текст) и ищет несоответствия, перекосы, ошибки.

• Здесь задействуются другие паттерны обучения: fine-tuning* на «критических» датасетах, где модель учат находить слабые места.

Делюсь важным лайфхаком - как задать промпт любой LLM таким образом, чтобы сразу совместить в нем эти 2 режима и тогда ответы модели будут более качественными и достоверными. В моем ТГК "Посиделки с карьерным консультантом и ИИ".?

https://t.me/tsypkina_career/560 можно скачать файл с шаблоном такого промпта.


Источник: t.me

Комментарии: