Как запускать LLM-агентов без облачных API: VPS, локальные модели и требования к железу

2026-05-08 12:26

LLM-агенты вроде Claude Code постепенно становятся рабочим инструментом разработчика. Но почти все они завязаны на облачные API с их ценами, лимитами и зависимостью от внешней инфраструктуры.

Поэтому всё чаще возникает идея: а что если запускать агентов на своём сервере — локально или на VPS?

Разберёмся, как это сделать, какое железо для этого нужно и почему такие сценарии могут быть выгодны не только пользователям, но и самим хостерам.

На практике это выглядит достаточно просто: агент запускается на удалённом сервере, а пользователь подключается к нему по SSH или через веб-интерфейс. При этом сами модели могут быть как облачными, так и локальными — в зависимости от задач и доступных ресурсов.

В качестве такой инфраструктуры обычно используют VPS в зарубежных дата-центрах: это позволяет избежать ограничений по доступу (например, Claude Code заблокировал доступ для пользователей из России) и при этом не требует покупки собственного железа (что сейчас очень актуально). По сути, это тот же «личный сервер», но можно быстро масштабироваться и не надо тратить деньги на обслуживание.

Многие хостинг-провайдеры уже подстраиваются под этот сценарий и предлагают VPS в разных юрисдикциях — с возможностью быстро развернуть сервер под такие задачи и работать с ним из любой точки. Например, RUVDS предлагает VPS в зарубежных дата-центрах Швейцарии, Нидерландов, Турции, Великобритании и Казахстана:

Если мы берём Claude Code, для агента подойдёт стандартный VPS с минимальным объёмом памяти и CPU, потому что консольный клиент работает с удалённым облачным сервером. На практике комфортный минимум — это несколько гигабайт RAM и 1–2 vCPU.

Запуск агента на VPS даёт ряд преимуществ:

обход ограничений для пользователей из России;
постоянный доступ к агенту 24/7 с любого устройства, в том числе со смартфона;
безопасная песочница: даже при работе с максимальными разрешениями агент ничего не сотрёт и не испортит на личном ПК, только на VPS.

Однако дальше возникает логичный вопрос: какие ресурсы вообще нужны для такой схемы? Всё зависит от того, используете ли вы облачные модели или запускаете LLM локально. Во втором случае требования к железу становятся заметно выше.

Arm-серверы для ИИ-агентов

Для запуска локальных LLM нужны специализированные серверы со специализированным железом. В идеале — с топовыми GPU типа Nvidia H200. Но можно выбрать и более бюджетные варианты, тем более агенты работают на любом железе (об этом ниже).

Индустрия микроэлектроники чутко реагирует на спрос — и выпускает всё больше CPU и ускорителей для ИИ-приложений. Например, компания Arm недавно представила серверный процессор Arm AGI «для серверов с ИИ-агентами». В данном случае аббревиатура AGI означает “Agentic AI Infrastructure”, а не «общий интеллект».

Arm AGI — первый собственный процессор компании Arm за 35-летнюю историю

Заявляется, что CPU на ядрах Arm Neoverse V3 по производительности на стойку превосходит серверные x86-процессоры благодаря архитектуре памяти и быстрой шине ввода-вывода. Arm AGI не создан конкретно для ИИ-вычислений, однако в нынешней рыночной конъюнктуре эти процессоры с хорошей масштабируемостью и параллелизацией удобно позиционировать как «ИИ-процессоры». Сегодня многие продукты добавляют в название “AI”, “AGI”, “Agentic” и прочее, это благоприятно действует на инвесторов.

В каждом CPU упаковано до 136-ти ядер Arm Neoverse V3 на частоте до 3,7 ГГц, пропускная способность памяти 6 ГБ/с (задержка менее 100 нс), кэш 2 МБ на ядро. В плане ввода-вывода поддерживается 96 линий PCIe Gen 6 и расширение памяти CXL 3.0. TDP 300 Вт

Образец блейд-сервера в одном юните содержит два чипа с выделенной памятью и вводом-выводом, что в сумме даёт 272 ядра на сервер, память DDR5-8800 (до 6 ТБ на чип). Такие серверы предназначены для полного заполнения стандартной 36 кВт стойки с воздушным охлаждением: 30 блейдов обеспечивают в общей сложности 8160 ядер. В такой серверной стойке можно разместить несколько тысяч клиентских VPS с ИИ-агентами. Примерно так выглядят серверы для ИИ-агентских вычислений в дата-центрах будущего.

Arm также сотрудничала с Supermicro над разработкой конструкции с жидкостным охлаждением мощностью 200 кВт, которая может разместить 336 процессоров Arm AGI с более чем 45 000 ядами.

В такой конфигурации Arm AGI обеспечивает лучшую производительность на стойку, по сравнению с системами x86. По информации Arm, процессоры x86 деградируют, когда ядра максимально нагружены при длительной параллельной нагрузке, и там меньше пропускная способность памяти.

Локальные LLM на сервере

Как упоминалось выше, для запуска локальных LLM нужны серверы со специализированным железом. В идеале — с топовыми Nvidia H200. Мало кто из обычных пользователей может позволить себе такой сервер. А вот крупная хостинг-компания — может. И сдавать его в аренду своим клиентам. Таким образом, клиенты получат относительно безопасную и недорогую альтернативу облачным LLM.

В интернете можно найти много инструкций, как поднять свой LLM-сервер и работать локально. Для локального инференса используется движок llama.cpp, графические оболочки Ollama и LM Studio или универсальный интерфейс OpenRouter. Все опенсорсные модели можно свободно скачать с Hugging Face, из каталога Ollama Library (готовые GGUF, оптимизированные под Ollama), коллекций Unsloth (ускоренные и дообученные модели) и др.

Утилита llmfit показывает список моделей, которые можно запустить на машине, исходя из текущей конфигурации CPU/RAM/GPU, аналогичную информацию выдаёт сервис Can I Run AI locally?.

Через Ollama запускаются не только локальные модели, но и другие приложения, облачные сервисы и агенты, в том числе Claude Code и OpenClaw, всего более 40 тыс. интеграций с разными инструментами.

В документации см. советы, какие модели лучше использовать для каждого инструмента. На Хабре много полезных статей на эту тему.

Ollama интегрируется с разными IDE, так что в них можно выбрать локальные модели для использования. Например, настройка VS Code:

Сначала загружаем модели Ollama в VS Code, а потом выбираем из них подходящую:

Или можно запустить локальную модель Ollama в VS Code прямо из командной строки:

ollama launch vscode --model qwen3.5:cloud

Что касается установки локальных моделей на VPS, то процесс принципиально ничем не отличается от установки на локальном ПК. Вот инструкция по установке Ollama на сервере:

curl -fsSL https://ollama.com/install.sh | sh

Установка LM Studio на сервер:

curl -fsSL https://lmstudio.ai/install.sh | bash

Какой должен быть сервер для LLM

Вот примеры оптимальных конфигураций сервера для разных моделей:

Llama 3.1 70B

CPU: 32+ ядер
RAM: 256GB DDR5
GPU: 4? NVIDIA H100 80GB
SSD: 1TB+ NVMe, + 4TB+ HDD для хранения моделей

Оценочная производительность, бенчмарки:

Q4_K_M: ~15-25 ток/с
Q8_0: ~10-18 ток/с
FP16: ~5-10 ток/с

Mistral 7B

CPU: 16 ядер
RAM: 32GB DDR5
GPU: 1? NVIDIA RTX 4090 24GB
SSD: 250GB+ NVMe

Оценочная производительность, бенчмарки:

Q4_K_M: ~80-120 ток/с
Q8_0: ~60-90 ток/с
FP16: ~30-50 ток/с

Такие VPS вполне можно сдавать пользователям в аренду, и для клиентов во многих случаях это тоже будет выгоднее, чем поддерживать собственный сервер или подписываться на платные облачные сервисы.

Некоторые западные хостеры уже предлагают нечто подобное для LLM, даже дают VPS с уже установленными моделями. Возможно, за этим будущее. Вполне вероятно, что такая практика будет расширяться, поскольку спрос есть.

Для таких сценариев важную роль играют техники оптимизации LLM — например, TurboQuant, которые позволяют запускать более крупные модели на ограниченных ресурсах. Параллельно растёт интерес к более компактным моделям с низкой стоимостью инференса, которые в ряде задач (например, программировании) уже конкурируют с более дорогими решениями.

Например, вот оценка стоимости решения задач агента ATLAS на своём сервере с RTX 5060 Ti 16GB, 16 ГБ RAM, ОС RHEL 9 (Proxmox VM) и локальной моделью Qwen3-14B-Q4_K_M, по сравнению со стоимостью API облачных моделей, в задачах LiveCodeBench v5 на программирование:

Система	LCB pass@1	Средняя цена на задачу	Примечание
DeepSeek V3.2 Reasoning	86,2%	~$0,002	API, один запуск
GPT-5 (high)	84,6%	~$0,043	API, один запуск
ATLAS V3 (pass@1-v(k=3))	74,6%	~$0,004	Только электричество, лучший из трёх + конвейер исправлений
Claude 4.5 Sonnet	71,4%	~$0,066	API, один запуск
Claude 4 Sonnet	65,5%	~$0,066	API, один запуск

В данном случае сервер с дешёвой видеокартой за $500 превосходит по качеству программирования платный Claude 4.5 Sonnet. О стоимости нечего и говорить: на локальном сервере расходы только на электричество, поэтому цена на порядок ниже.

Прогноз на будущее

В будущем инфраструктура VPS для LLM будет расширяться. Наверняка появится больше специализированного серверного железа: ARM-процессоры, ускорители NPU и TPU. Экосистема инструментов продолжит развиваться бурными темпами. Мы уже видим многочисленные фреймворки для работы с агентами (LangChain, LlamaIndex) и надстройки более высокого уровня вроде CrewAI и AutoGen, в которых программные агенты работают почти как обычные сотрудники, а создаются одним нажатием кнопки:

Появились даже отдельные сервисы для генерации аватаров к созданным агентам:

В общем, индустрия бурно развивается. Уже несколько месяцев в списке самых популярных репозиториев Github за неделю — практически только агенты, за редкими исключениями.

Телеграм: t.me/ainewsline

Источник: habr.com

Как запускать LLM-агентов без облачных API: VPS, локальные модели и требования к железу

Комментарии: