Личный ИИ-ассистент на ваших данных. Часть 1: Векторная база ChromaDB + DeepSeek | GPT |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-04-22 12:29 Друзья, приветствую! Сегодня я хотел бы рассмотреть интересующую многих тему, а именно связку большой языковой модели по типу DeepSeek или ChatGPT со своей базой знаний. В рамках этой статьи я дам вам подробное объяснение принципов работы векторных баз данных и того, зачем их можно использовать в рамках связки своей базы знаний с готовыми «большими» нейросетями. В качестве примера рассмотрим поиск по документации Amvera Cloud — облачной платформы со встроенным проксированием к OpenAI, Gemini, Claude, Grok, а также с возможностью обновления проектов через git push. Мы сейчас активно разрабатываем ИИ-агента, который будет помогать пользователям с развертыванием проектов в облаке, устранением ошибок в коде и конфигурации, а также упростит работу с документацией. И как раз поиск по документации — отличный кейс для применения векторной базы данных, такой как Chroma. Сразу разберем некий ограничивающий блок Готовые нейросети, такие как DeepSeek, ChatGPT или Claude изначально заточены на то, что на вход они будут получать некие текстовые данные с определенным контекстом (промпт) и далее, на основании своих параметров и обучения они будут делать обработку вашего запроса, выполняя необходимую задачу. То есть, учитывая что мы будем работать с готовыми языковыми моделями, от процесса подготовки промптов с определенным контекстом и отправки запросов к готовым нейросетям мы отойти не сможем. Отсюда выходит логичная задача — каким образом нам подвязать к процессу общения с нейросетью нашу базу данных. Представим, что это тысячи страниц профессиональной литературы. Сомнительно то, что мы будем сотни мегабайт данных формировать в один гигантский промпт и при этом будем ожидать, что нейросеть согласится с ним работать. Как минимум, мы получим ошибку о том, что переданный контекст превышен. Логично, что напрашивается решение формировать свой запрос, дополняя его только необходимым для этого конкретного запроса контекстом, но как это сделать? Простейший вариант — это организация некоего SEO-поисковика. Мы отправляем, например, «обучение нейросетей» и по нашим гигабайтам данных идет поиск, но и тут возникает логическая проблема. Даже если мы найдем информацию, допустим это 1000 вхождений такой фразы как «обучение нейросетей», каким образом нам выделять этот самый контекст? Как мы будем решать, что важно передавать нейросети для общения, а что передавать не нужно? Конечно, можно сильно заморочиться с поисковиком этим, но, как вы понимаете, подход не то чтобы оптимальный, а это значит, что необходимо искать другое, более гибкое и удачное решение, о котором мы сегодня детально поговорим. Векторные базы данных Я знаю, что вы, с большой вероятностью, либо не слышали о существовании таких баз данных, либо знакомы с ними поверхностно. Поэтому далее я подробно и на пальцах разложу, что это за базы данных такие и, главное, мы разберемся, как они помогут нам в нашей задаче. Если коротко и грубо, то векторная база данных — это представление данных: текстовых или байтовых в числовом представлении или, правильнее, в виде векторов. Для примера, слово «привет» в векторном представлении будет иметь следующий вид [-0.012, 0.124, -0.056, 0.203, ..., 0.078] (убрал лишние цифры для наглядности). В сегодняшнем контексте большого значения нет в том, каким математическим образом получаются эти цифры. Сейчас важно только общее понимание цифрового представления данных. Практическая польза На этом этапе вы можете закономерно сказать: «Это все весело и очень интересно, но какая в этом всем практическая польза и как вообще получать эти странные цифры»? Давайте разберемся. Первое, что нужно понять — это то, что нейросети не умеют читать ваши тексты или смотреть на ваши фото в общечеловеческом представлении. Например, отправляя запрос ChatGPT, происходит следующее:
То есть, уже на данном этапе видно, что в общении с нейросетями появляется такая штука, как числовое представление входящей информации (представление в виде эмбеддингов), и теперь давайте разберемся, для чего это необходимо. Эмбеддинги и зачем они нужны Эмбеддинги — это «цифровые отпечатки смысла» текста. Давайте разберем это утверждение на реальном примере. Представьте, что у вас есть огромная куча документов — книги, статьи, заметки. И вы хотите находить в них информацию не по точным словам, а по смыслу. Как это реализовать:
Пример:
Простая аналогия:
Зачем это нужно?
Итог: Эмбеддинги — это «переводчик» текста в числа, чтобы искать по смыслу, а не буквам. Векторные базы — их «хранилище», где поиск работает как магнит для похожих идей. Существуют специальные нейросети, которые умеют трансформировать ваши текстовые данные в векторное (числовое) представление. Для таких задач не обязательно тянуть таких гигантов, как ChatGPT или DeepSeek, а достаточно будет брать именно специальные нейросети. Далее, в практической части, я буду проводить демонстрацию создания эмбеддингов и реализацию умного поиска на примере нейросети paraphrase-multilingual-MiniLM-L12-v2. Данная нейросеть весит всего 500 МБ, и она запускается локально даже на средних компьютерах, так что идеально подойдет для наших задач. Векторные базы данных (продолжение) К этому моменту вы должны понять, что при работе с данными в числовом представлении действует следующая связка: Текстовые данные при помощи специальной нейросети трансформируются в векторное (числовое) представление. Далее, для того чтобы начал работать умный поиск, нам нужно:
Теперь возникает логический вопрос с хранением этих числовых данных. Понятно, мы можем взять текст, потом его превратить в векторы при помощи какой-то, пока непонятной, paraphrase-multilingual-MiniLM-L12-v2, но что там с хранением? Хранится это может как в специализированной базе данных, по типу Chroma, с которой мы будем сегодня работать, так и в оперативной памяти. Принцип хранения в оперативной памяти:
Принцип хранения в специализированной базе данных:
Векторные базы данных бывают как локальные (Self-hosted решения), так и облачные. Простейшая локальная база данных — это ChromaDB, с которой мы будем сегодня работать. Выбрал ее за простоту и за очень хорошую интеграцию с языком программирования Python. Другие векторные локальные базы данных: Qdrant, Weaviate, Milvus и другие. Вот несколько примеров облачных баз данных: Pinecone, RedisVL, Qdrant Cloud и другие. Чем сегодня займемся? Далее еще будет теория, но я уверен, что вы ждете практической части. Поэтому давайте разберемся, чем мы практически займемся, кроме поглощения теоретической информации. Далее я покажу вам на практическом примере, как трансформировать текстовые данные в векторную базу данных ChromaDB. Мы сначала на простом примере создадим базу данных и поработаем с поиском по ней, а после уже будем работать с более сложным примером, на основе которого мы будем делать нашего умного ассистента в дальнейшем. После того как мы полностью разберемся с тем, как работает генерация эмбеддингов и умный поиск внутри них — мы подключим к общему контексту большие нейросети DeepSeek и GPT, реализуя такую логику:
Будет интересно! Простая векторная база данных Теперь, для закрепления общего теоретического блока, описанного выше, подготовим простую базу данных ChromaDB на основе описания товаров выдуманного интернет-магазина (для простейшего примера это наглядный пример). Представим, что у нас есть массив товаров такого вида: Как видите, информация представлена в виде списка словарей, каждый из которых содержит 2 основных ключа: text и metadata. Документы и метаданные в векторных базах данных Это важный момент, на котором стоит остановиться подробнее. Вы должны понимать, что в базе данных ChromaDB весь наш «умный» поиск будет работать "из коробки" только на значении ключа text (имя может быть любым). В контексте векторных баз данных выделяются такие понятия как документы (в нашем случае это текст, описывающий конкретный товар) и метаданные. Ограничения на длину документа На этапе подготовки текстовых данных для загрузки в векторную базу крайне важно учитывать ограничения по длине текста, устанавливаемые моделью, которая будет преобразовывать его в векторное представление. Эти ограничения зависят от конкретной нейросети и обычно составляют от 256 до 512 токенов. Таким образом, если вы, например, планируете добавить в базу полную книгу объёмом в 200 страниц, её необходимо предварительно разбить на более мелкие фрагменты — каждый длиной не более 256–512 токенов. Это обеспечит корректную обработку текста моделью и сохранение смысловой целостности в векторном пространстве. Модель paraphrase-multilingual-MiniLM-L12-v2, с которой мы будем работать сегодня, имеет ограничение в 512 токенов на документ. Это примерно 250–350 слов или 1500–2200 символов. Однако, учитывая, что мы будем использовать наши данные совместно с мощными нейросетями Deepseek и ChatGPT, мы сделаем размер документов меньше, чтобы избежать перегруженности контекста. Роль метаданных Метаданные — это наши помощники, которые делают поиск более точным и локальным. Вот простой пример: Представим, что ваш интернет-магазин занимается реализацией ноутбуков, смартфонов и прочей техники. Вы можете ограничить умный поиск по метаданным категории (category). Независимо от того, будете ли вы использовать метаданные для поиска явно, важно понимать, что найденные документы (результаты поиска) всегда будут содержать эти метатеги, что позволит вам выполнять дополнительную обработку. Пример с книгами: Представим, что вы решили загрузить в векторную базу данных всю серию книг про Гарри Поттера. Вы разбили весь текст на фрагменты по 512 токенов, а в качестве метатегов указали: название книги, номер страницы, номер главы и прочую информацию. Далее вы отправляете запрос в стиле «Когда Гарри Поттер узнал о крестражах». Ваш умный поиск возвращает определенное количество результатов — документов с метатегами, которые позволяют вам понять, из какой это книги и на какой странице находится информация. Другой пример работы с метатегами — это ограничение поиска конкретной книгой, серией книг или автором при формировании запроса. При этом помните, что умный поиск никак не связан с метаданными, если вы явно не укажете логику их обработки в запросе. Практическое применение метаданных В контексте метаданных для наших товаров: Мы передаем ID товара, тип, категорию, цену и остаток на складе. Например, на сайте можно было бы реализовать умный поиск по товарам и на странице результатов отображать для пользователя только те товары, которые имеют найденный ID. Таким образом, векторная база данных — это отличный инструмент не только для интеграции с нейросетями, но и для решения практических задач, таких как умный поисковик на сайте или в вашем API. Создание векторной базы данных на Python Теперь напишем немного кода. Код будет простым, так как нам не нужно делить документы (описания товаров) на фрагменты или выполнять дополнительную логику по парсингу и обработке товаров. Подготовка проекта Первое, что делаем — это создаем новый проект Python с выделенным виртуальным окружением. В проект добавляем файл Что за langchain? Вы могли заметить, что слово langchain в зависимостях у меня встретилось целых 5 раз, что не случайно. Langchain – это мощнейший инструмент Python, который позволяет «из коробки» интегрировать в свои проект огромное количество нейросетей и прочих полезных инструментов. Данный фреймворк заслуживает упоминания далеко не в одной статье, поэтому, настоятельно рекомендую ознакомиться с документацией по проекту (105к + звезд на GitHub должны намекать на то что проект стоит внимания). ![]() В сегодням же проекте мы будем использовать следующие инструменты данного фреймворка: langchain-text-splitters==0.3.7 Инструмент для разбиения больших текстов на меньшие фрагменты (чанки). Содержит различные стратегии сегментации: по символам, предложениям, токенам, семантическим блокам. Необходим для обработки объемных документов, когда они превышают контекстное окно языковых моделей (256-512 токенов в нашем случае). langchain-deepseek==0.1.3 Интеграция с моделями DeepSeek AI. Позволяет использовать мощные языковые модели DeepSeek для анализа и генерации текста (сегодня демонстрация будет выпонена на основе модели langchain-openai==0.3.11 Адаптер для работы с API OpenAI. Предоставляет доступ к семейству языковых моделей GPT и их функциям. Включает поддержку чат-моделей, embedding-моделей и функций для работы с изображениями через DALL-E (рассмотрим пример с моделью langchain-chroma==0.2.2 Коннектор к векторной базе данных ChromaDB. Позволяет хранить и эффективно извлекать векторные представления текстов для реализации функций семантического поиска и построения баз знаний с возможностью поиска по схожести. langchain-huggingface==0.1.2 Интеграция с экосистемой Hugging Face открывает доступ к тысячам открытых моделей, разработанных сообществом. Среди них языковые модели, модели для эмбеддингов, классификации и других задач в области NLP. Этот инструмент особенно полезен, когда требуется запустить модели локально или использовать специализированные модели. В нашем случае мы сможем применять локальную нейросеть paraphrase-multilingual-MiniLM-L12-v2. Другие пакеты
Установка зависимостей Теперь выполним установку: Установка может занять продолжительное время из-за общего веса устанавливаемых пакетов (в моем случае процесс установки занял ~20 минут). Создание базы данных Теперь создадим файл с именем create_chromadb.py (имя можете дать любое). Выполним импорты: Определим основные переменные: Коллекции в векторных базах данных можно сравнить с таблицами в классических базах данных. Если не указывать имя коллекции, ChromaDB подставит значение по умолчанию. Теперь добавим массив товаров (чем больше - тем лучше): И наконец, напишем функцию для создания базы данных: В этом коде мы:
Важно отметить, что мы используем многоязычную модель paraphrase-multilingual-MiniLM-L12-v2, которая хорошо работает с русским языком. Это позволит нам корректно создавать векторные представления для наших товаров на русском языке. Сама модель при первом запуске будет загружена автоматически из репозитория Hugging Face. При повторных запусках, если модель уже на вашей машине, в загрузке необходимости не будет. Особенность выбранной модели в том, что она сбалансирована по размеру и качеству - даёт хорошие результаты векторизации текста даже на CPU, но при наличии CUDA-совместимой видеокарты работает значительно быстрее. Плюс, благодаря параметру normalize_embeddings=True, все создаваемые эмбеддинги будут нормализованы, что улучшит точность поиска похожих товаров. Выполняем код: Готово! Теперь у нас есть основа для создания векторной базы данных с описанием из документов. В корне проекта после запуска должна появиться папка с именем "shop_chroma_db", в которой будут лежать файлы базы данных. В дальнейшем мы сможем использовать эту базу для семантического поиска товаров по запросам пользователей — поиск будет находить не только точные совпадения, но и семантически близкие товары. Пишем поисковик по базе данных Теперь, когда база готова, мы можем описать простую поисковую систему в её рамках. Принцип тут будет сводиться к следующему:
Что касается выдачи документов пользователю. Тут есть такая особенность: мы всегда указываем то количество документов, которые хотим получить. Допустим, это может быть 5 штук. Если вы не будете жёстко привязываться к метаданным через фильтры, то вы всегда будете получать в ответ от базы данных ровно то количество документов, которое указали. То есть, даже если выдача вообще не будет соответствовать вашему запросу, вы всё равно ваши 5 документов в ответ получите. Это важно учитывать при разработке пользовательского интерфейса. Сам ответ состоит из: документа, метаданных, которые к нему были привязаны, и из индекса ранжирования (чем ниже этот индекс – тем более похожий по смыслу документ вы получите). Сама выдача идёт по принципу: чем ниже индекс, тем выше позиция на выдаче. Теперь вернёмся к коду. Импорты: Переменные: Теперь опишем функцию для подключения к существующей базе данных: Данная функция вернёт готовый к работе объект базы данных, в рамках которой и будет осуществляться векторный поиск. Теперь опишем функцию, которая позволит вести поиск как по документу (страницам документации), так и по метаданным: И теперь вызовем её: Параметр metadata_filter позволяет нам указать условия фильтрации по метаданным. Тут больше подойдет пример поиска по товарам интернет-магазина, чем наша документация. Например, если мы хотим найти только ноутбуки с ценой менее 60000 рублей, мы можем использовать фильтр такого вида: Тут хочу отметить, что этот пример учебный. В боевой системе обычно создаётся класс для управления сессией с базой данных, чтоб можно было подключиться один раз и удерживать соединение. В текущей реализации каждый вызов функции будет заново запускать соединение и загрузку модели эмбеддингов, что довольно ресурсоёмко. В следующей статье, если я увижу, что вам интересна данная тема, я покажу, как реализовать такой класс и как на основе векторной базы данных можно создать полноценное веб-приложение. Кстати, исходный код сегодняшнего проекта, как и уже написанный класс для управления соединением с векторной базой данных, вы найдете в моем телеграмм канале «Лёгкий путь в Python». Там полный исходный код проекта лежит уже порядка недели. Вызываем поиск и посмотрим на результаты. Неплохо, правда? Несмотря на то, что в запросе мы явно не указывали конкретную модель пылесоса или его характеристики, векторный поиск сумел понять семантику запроса и вернуть наиболее подходящие результаты из нашей базы. Это демонстрирует мощь векторных баз данных в сочетании с современными языковыми моделями. Приступаем к практике Теперь, когда вы уже поняли общие принципы работы с векторными базами данных, мы можем приступить к созданию более сложной логики. Речь пойдёт о сервисе Amvera Cloud, который я уже не раз упоминал в своих предыдущих статьях на Хабре. Вкратце, это платформа для простого деплоя (удалённого запуска) проектов, практически, на любом языке программирования. Одно из приятных преимуществ Amvera Cloud — возможность быстро развернуть проект на самых разных технологиях, используя git push (или перетянув файлы в интерфейсе), а также получить к нему бесплатное доменное имя. Дополнительно, сервис предоставляет бесплатное встроенное проксирование к API OpenAI, Antropic, Cloude и Grok, что удобно для взаимодействия с LLM. Благодаря таким техническим возможностям, у сервиса весьма обширная и подробная документация — на все случаи жизни: от базовых руководств, вроде миграции с Heroku, до более специфических тем — например, запуска проектов на FastAPI или Django, или решения вопросов, связанных с биллингом. Именно эта документация (а это порядка 70 различных документов) отлично подойдёт для практической демонстрации: мы сможем взять массив текстов, преобразовать его в векторную базу данных и показать, как эффективно интегрировать такую базу с нейросетевыми моделями для получения осмысленных и полезных ответов. Вводные данные В моих руках уже было порядка 70-ти документов в Markdown от Amvera в таком формате: Эти документы мне были предоставлены в виде проекта, содержащего как файлы md, так и прочие технические файлы. Но, скорее всего, в вашем случае такого подарка не будет. Поэтому важно помнить, что для сбора информации под базу данных можно использовать любые удобные вам инструменты: парсинг сайтов, загрузку данных из собственных SQL-баз, чтение документов в форматах Excel, Word, PDF и так далее. Главное, чтобы в итоге информация была преобразована в формат, который поддерживается векторными базами данных и имеет чёткую структуру. Первое, что я реализовал в формате задачи с подготовкой – это решил трансформировать все эти файлы с вложенной структурой в JSON формат такого вида: То есть это полная текстовая информация в ключе text без знаков препинания, спец-символов и капса, и помещённая в метаданные техническая информация по типу количества секций, названий и прочее. Тут важно понимать, что метаданные – это наши помощники, но вам ничего бы не помешало зарядить только тексты. Однако с метаданными мы получаем дополнительные возможности для фильтрации и анализа результатов поиска. Опишем логику для создания папки с JSON-файлами: Импорты Тут я использовал встроенные в Python библиотеки, за исключением loguru – для удобного логирования результатов. Само извлечение будет ориентировано на регулярные выражения. Выведем константы: Опишем логику для нормализации текстов: Напишем логику для парсинга одного документа формата md: И опишем функцию для парсинга всех документов: На вход функция принимает папку, в которой находятся все документы, и папку, в которую запишутся полученные JSON файлы. Логика обнаружения md файлов работает таким образом, чтобы искать по всем вложенным папкам директории с документами. Это особенно полезно, если ваша документация имеет сложную структуру файлов и директорий. Теперь вызываем: Запускаем. Файлы готовы! Теперь нам остается прочитать все файлы и на их основе создать векторную базу данных. Обратите внимание, что наш парсер выделяет из Markdown не только текст, но и структуру документа. В метаданных мы сохраняем название файла и заголовки всех разделов. Это позволяет нам потом не только искать по содержимому, но и точно указывать, из какого раздела документации был взят тот или иной фрагмент, что очень полезно для создания осмысленных ответов ассистента. Создаем базу данных Процесс создания базы данных под Amvera не сильно отличается от описанного ранее подхода, с той разницей, что данные мы будем брать из существующих JSON-файлов. Перед продолжением для более структурированного кода давайте создадим файл .env в корне проекта и поместим в него следующие переменные: Здесь должны находиться оба ключа API. Если ключей нет, можно файл не создавать. Далее создаем файл config.py и заполним его следующим образом: В этом классе мы собираем все необходимые переменные для работы проекта. Как видите, здесь указаны пути к важным папкам (у вас структура может отличаться), названия коллекций, максимальный размер чанка, имена моделей нейросетей. Обратите особое внимание на объявление API-ключей: Важно описывать их не как обычные строки, а именно через SecretStr. Это требование библиотеки LangChain для безопасной работы с конфиденциальными данными. Теперь мы можем импортировать переменную settings в любом месте кода и через точку обращаться к необходимым нам настройкам. Создание базы данных Вернемся к созданию базы данных. Начнем с импортов: Здесь среди прочего вы видите импорт RecursiveCharacterTextSplitter. Этот компонент позволит нам разделять большие документы на смысловые чанки (фрагменты текста, связанные между собой по смыслу). Напишем функцию для загрузки всех существующих JSON-файлов в формат списка словарей: После выполнения этой функции мы получим все данные из JSON-файлов в виде словарей, помещенных в оперативную память. Информацию из этих словарей можно будет использовать для создания векторной базы данных. Теперь опишем логику для разбиения больших документов на смысловые фрагменты: В результате работы этой функции мы по-прежнему имеем список из словарей, но теперь большие тексты разделены на смысловые фрагменты. При этом каждый из фрагментов содержит необходимые метаданные. Это важно для сохранения общего контекста даже при разбиении большого текста на множество частей. Наконец, опишем логику для создания векторной базы данных: Логика создания базы данных не сильно отличается от примеров, которые мы рассматривали ранее. Главное отличие — разбиение больших текстов на смысловые фрагменты (чанки). На моем достаточно скромном компьютере процесс создания базы данных занял менее 10 минут. На устройствах с GPU этот процесс займет лишь несколько минут благодаря параллельным вычислениям. Оптимизация производительности Стоит отметить, что при работе с большими объемами данных можно дополнительно оптимизировать процесс:
ChromaDB обладает хорошей производительностью для большинства задач RAG, но при очень больших объемах данных (миллионы документов) стоит рассмотреть другие решения, например FAISS или Pinecone. Интеграция поисковика с нейросетями Ранее мы рассмотрели, как описать поисковик без использования больших нейросетей. Чтобы закрепить этот материал, предлагаю вам самостоятельно создать такой поисковик на основе вашей базы данных. Я же перейду к самой интересной части – объясню, как объединить выдачу из векторной базы данных с нейросетями, чтобы создать умного ИИ-агента. Для этого мы будем использовать данные из документации Amvera Cloud, которые у меня уже трансформированы в векторную базу данных. Начальная настройка проекта Начнем с создания файла с именем chat_with_ai.py. Выполним необходимые импорты: Здесь мы подключаем новые инструменты langchain_deepseek и langchain_openai, которые позволят нам легко интегрировать модели DeepSeek и ChatGPT (а также другие модели OpenAI) в наш проект. Структура основного класса Для более структурированного кода я решил оформить его в виде класса. Объявим наш класс и опишем логику инициализации: При создании объекта класса мы передаем параметр provider со значением "deepseek" или "openai" для указания той нейросети, с которой будем работать в проекте. Обратите внимание на конструкцию: Таким простым образом мы можем объявить нейросеть, с которой будем взаимодействовать. Здесь достаточно передать API-токен и название модели (это обязательные параметры). Также можно передавать дополнительные параметры для более тонкой настройки, например, temperature для контроля креативности ответов. Получение релевантного контекста Опишем метод для получения ответа из базы данных: На вход метод принимает запрос пользователя и количество документов, которые мы ожидаем получить (по умолчанию это 3 документа). Для поиска я использовал метод similarity_search. Напомню, что суть этого метода в том, что поисковый запрос мы преобразуем в векторное представление и на основании этого вектора осуществляем поиск в нашей базе данных. Форматирование контекста Теперь опишем метод, который будет трансформировать полученный результат в удобный для нейросетей вид: Этот метод трансформирует связку документ + метаданные из всех полученных документов в одно структурированное сообщение, которое мы затем передадим нейросети. Генерация ответа Теперь опишем метод, который будет связывать наш контекст с запросом к нейросети: Обратите внимание, что здесь используется текстовый промпт, который выступает в роли обертки над нашим контекстом. Сам промпт (запрос) может быть любым, и я привел лишь один из возможных примеров. С содержимым промпта стоит экспериментировать в зависимости от конкретных требований вашего проекта. Инструкции могут быть более или менее директивными, могут ориентировать модель на разные стили ответов или разный формат подачи информации. На вход метод принимает поисковый запрос пользователя. Этот запрос сначала обрабатывается векторной базой данных, и на его основе мы получаем структурированный текст релевантных документов. Затем этот текст объединяется с подготовленным нами промптом, и при помощи вызова Далее мы трансформируем ответ и возвращаем его пользователю. Запуск и тестирование Теперь остается корректно инициализировать класс и вызвать его методы: Обратите внимание, что здесь запущен цикл, который прервется только если пользователь напишет «выход». Это демонстрирует, как можно удерживать подключение с векторной базой данных Chroma без необходимости повторно подключаться к ней при каждом запросе. Мы один раз подключаемся к базе, и отключимся от неё только когда завершится наш бесконечный цикл. Такой подход экономит время на инициализацию соединения при каждом запросе пользователя. Заключение На текущем этапе у нас получился лишь прототип поисковика по документации Amvera Cloud — пока это сложно назвать полноценным сервисом с ИИ помощником. Если этот материал найдет у вас отклик в виде просмотров, лайков и комментариев, то уже в следующей статье я подробно расскажу, какие блоки текущего кода можно улучшить. На основе доработанного варианта мы соберем готовый веб-сервис, аналогичный сайту chat.openai.com, где реализуем полноценный и удобный чат с нашим ИИ-ассистентом. Надеюсь, мне удалось донести до вас, как работают векторные базы данных, как собирать и структурировать под них информацию, а также как организовать генерацию и поиск по таким базам. Из-за ограниченных ресурсов мне не удалось охватить тему глубоко и всесторонне. Поэтому настоятельно рекомендую изучить векторное представление данных более детально. Это важно хотя бы потому, что такие гиганты, как ChatGPT, Claude, DeepSeek и другие современные нейросети работают именно с векторным представлением информации. Кроме того, советую обратить внимание на такой мощный инструмент, как LangChain. То, что мы разобрали в этой статье, — лишь малая часть его возможностей. Напоминаю, что исходный код проекта, включая асинхронный класс для работы с векторной базой ChromaDB, а также прочий эксклюзивный контент, который я не публикую на Хабре, вы можете найти в моем бесплатном Telegram-канале «Легкий путь в Python». На этом всё. До встречи в следующем материале! Источник: habr.com Комментарии: |
|