Карпати собрал второй мозг на LLM

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Андрей Карпати, один из самых влиятельных людей в мире AI, поделился подходом, который может изменить то, как мы работаем с информацией. Он перестал тратить токены LLM на написание кода и переключился на нечто более интересное: построение персональных баз знаний с помощью языковых моделей.

Идея простая, но мощная. Карпати собирает сырые данные из разных источников (статьи, научные работы, репозитории, датасеты, изображения) в директорию raw/. Затем LLM инкрементально “компилирует” из этого вики – коллекцию .md файлов с четкой структурой директорий. Модель сама создает саммари, обратные ссылки, категоризирует данные по концептам, пишет статьи для каждого из них и связывает все между собой. Для конвертации веб-статей в .md файлы он использует расширение Obsidian Web Clipper, а все связанные изображения скачивает локально, чтобы LLM мог к ним обращаться.

В качестве IDE выступает Obsidian. Через него Карпати просматривает сырые данные, скомпилированную вики и визуализации. Важный момент: LLM пишет и поддерживает все данные вики самостоятельно, человек почти не трогает это руками. Плюс Obsidian-плагины вроде Marp позволяют рендерить данные в других форматах, например в слайды.

Самое интересное начинается, когда вики вырастает до приличного размера. У Карпати на одном из исследовательских проектов накопилось около 100 статей и примерно 400 тысяч слов. На такой базе можно задавать LLM-агенту сложные вопросы, и он сам находит ответы, исследуя вики. Карпати думал, что придется строить навороченный RAG, но оказалось, что LLM отлично справляется с автоматическим ведением индексных файлов и кратких саммари всех документов, и на таком масштабе легко находит всю нужную информацию.

Вместо текстовых ответов в терминале Карпати просит модель рендерить результаты в markdown-файлы, слайд-шоу в формате Marp или matplotlib-изображения, и все это отображается прямо в Obsidian. Часто он “складывает” результаты обратно в вики, так что его собственные исследования и запросы постоянно обогащают базу знаний.

Еще один крутой прием: LLM-“линтинг” вики. Модель прогоняет проверки здоровья базы, находит противоречивые данные, заполняет пробелы через веб-поиск, обнаруживает интересные связи для новых статей и постепенно повышает целостность данных. LLM хорошо умеет подсказывать новые вопросы, которые стоит исследовать.

Карпати также разрабатывает дополнительные инструменты для обработки данных. Например, он за вечер накодил простой поисковый движок по вики, который использует и сам через веб-интерфейс, и чаще передает LLM через CLI как инструмент для больших запросов.

Следующий логичный шаг – синтетическая генерация данных и файнтюнинг, чтобы LLM “знала” данные в своих весах, а не только через контекстное окно.

Если коротко: сырые данные собираются из множества источников, LLM компилирует из них .md вики, затем оперирует ей через различные CLI для ответов на вопросы и инкрементального улучшения базы, а все это просматривается в Obsidian. Вики почти никогда не редактируется вручную, это территория LLM.

Карпати считает, что здесь есть место для нового крутого продукта, а не просто набора скриптов. И с этим сложно не согласиться.


Телеграм: t.me/ainewsline

Источник: uproger.com

Комментарии: