Как запускать LLM-агентов без облачных API: VPS, локальные модели и требования к железу |
||||||||||||||||||||||||||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-05-08 12:26 LLM-агенты вроде Claude Code постепенно становятся рабочим инструментом разработчика. Но почти все они завязаны на облачные API с их ценами, лимитами и зависимостью от внешней инфраструктуры. Поэтому всё чаще возникает идея: а что если запускать агентов на своём сервере — локально или на VPS? Разберёмся, как это сделать, какое железо для этого нужно и почему такие сценарии могут быть выгодны не только пользователям, но и самим хостерам. На практике это выглядит достаточно просто: агент запускается на удалённом сервере, а пользователь подключается к нему по SSH или через веб-интерфейс. При этом сами модели могут быть как облачными, так и локальными — в зависимости от задач и доступных ресурсов. В качестве такой инфраструктуры обычно используют VPS в зарубежных дата-центрах: это позволяет избежать ограничений по доступу (например, Claude Code заблокировал доступ для пользователей из России) и при этом не требует покупки собственного железа (что сейчас очень актуально). По сути, это тот же «личный сервер», но можно быстро масштабироваться и не надо тратить деньги на обслуживание. Многие хостинг-провайдеры уже подстраиваются под этот сценарий и предлагают VPS в разных юрисдикциях — с возможностью быстро развернуть сервер под такие задачи и работать с ним из любой точки. Например, RUVDS предлагает VPS в зарубежных дата-центрах Швейцарии, Нидерландов, Турции, Великобритании и Казахстана: ![]() Если мы берём Claude Code, для агента подойдёт стандартный VPS с минимальным объёмом памяти и CPU, потому что консольный клиент работает с удалённым облачным сервером. На практике комфортный минимум — это несколько гигабайт RAM и 1–2 vCPU. Запуск агента на VPS даёт ряд преимуществ:
Однако дальше возникает логичный вопрос: какие ресурсы вообще нужны для такой схемы? Всё зависит от того, используете ли вы облачные модели или запускаете LLM локально. Во втором случае требования к железу становятся заметно выше. Arm-серверы для ИИ-агентов Для запуска локальных LLM нужны специализированные серверы со специализированным железом. В идеале — с топовыми GPU типа Nvidia H200. Но можно выбрать и более бюджетные варианты, тем более агенты работают на любом железе (об этом ниже). Индустрия микроэлектроники чутко реагирует на спрос — и выпускает всё больше CPU и ускорителей для ИИ-приложений. Например, компания Arm недавно представила серверный процессор Arm AGI «для серверов с ИИ-агентами». В данном случае аббревиатура AGI означает “Agentic AI Infrastructure”, а не «общий интеллект». Заявляется, что CPU на ядрах Arm Neoverse V3 по производительности на стойку превосходит серверные x86-процессоры благодаря архитектуре памяти и быстрой шине ввода-вывода. Arm AGI не создан конкретно для ИИ-вычислений, однако в нынешней рыночной конъюнктуре эти процессоры с хорошей масштабируемостью и параллелизацией удобно позиционировать как «ИИ-процессоры». Сегодня многие продукты добавляют в название “AI”, “AGI”, “Agentic” и прочее, это благоприятно действует на инвесторов. Образец блейд-сервера в одном юните содержит два чипа с выделенной памятью и вводом-выводом, что в сумме даёт 272 ядра на сервер, память DDR5-8800 (до 6 ТБ на чип). Такие серверы предназначены для полного заполнения стандартной 36 кВт стойки с воздушным охлаждением: 30 блейдов обеспечивают в общей сложности 8160 ядер. В такой серверной стойке можно разместить несколько тысяч клиентских VPS с ИИ-агентами. Примерно так выглядят серверы для ИИ-агентских вычислений в дата-центрах будущего. ![]() Arm также сотрудничала с Supermicro над разработкой конструкции с жидкостным охлаждением мощностью 200 кВт, которая может разместить 336 процессоров Arm AGI с более чем 45 000 ядами. В такой конфигурации Arm AGI обеспечивает лучшую производительность на стойку, по сравнению с системами x86. По информации Arm, процессоры x86 деградируют, когда ядра максимально нагружены при длительной параллельной нагрузке, и там меньше пропускная способность памяти. Локальные LLM на сервере Как упоминалось выше, для запуска локальных LLM нужны серверы со специализированным железом. В идеале — с топовыми Nvidia H200. Мало кто из обычных пользователей может позволить себе такой сервер. А вот крупная хостинг-компания — может. И сдавать его в аренду своим клиентам. Таким образом, клиенты получат относительно безопасную и недорогую альтернативу облачным LLM. В интернете можно найти много инструкций, как поднять свой LLM-сервер и работать локально. Для локального инференса используется движок llama.cpp, графические оболочки Ollama и LM Studio или универсальный интерфейс OpenRouter. Все опенсорсные модели можно свободно скачать с Hugging Face, из каталога Ollama Library (готовые GGUF, оптимизированные под Ollama), коллекций Unsloth (ускоренные и дообученные модели) и др. Утилита llmfit показывает список моделей, которые можно запустить на машине, исходя из текущей конфигурации CPU/RAM/GPU, аналогичную информацию выдаёт сервис Can I Run AI locally?. Через Ollama запускаются не только локальные модели, но и другие приложения, облачные сервисы и агенты, в том числе Claude Code и OpenClaw, всего более 40 тыс. интеграций с разными инструментами. В документации см. советы, какие модели лучше использовать для каждого инструмента. На Хабре много полезных статей на эту тему. Ollama интегрируется с разными IDE, так что в них можно выбрать локальные модели для использования. Например, настройка VS Code: ![]() Сначала загружаем модели Ollama в VS Code, а потом выбираем из них подходящую: ![]() Или можно запустить локальную модель Ollama в VS Code прямо из командной строки: Что касается установки локальных моделей на VPS, то процесс принципиально ничем не отличается от установки на локальном ПК. Вот инструкция по установке Ollama на сервере: Установка LM Studio на сервер: Какой должен быть сервер для LLM Вот примеры оптимальных конфигураций сервера для разных моделей: Llama 3.1 70B
Оценочная производительность, бенчмарки:
Mistral 7B
Оценочная производительность, бенчмарки:
Такие VPS вполне можно сдавать пользователям в аренду, и для клиентов во многих случаях это тоже будет выгоднее, чем поддерживать собственный сервер или подписываться на платные облачные сервисы. Некоторые западные хостеры уже предлагают нечто подобное для LLM, даже дают VPS с уже установленными моделями. Возможно, за этим будущее. Вполне вероятно, что такая практика будет расширяться, поскольку спрос есть. Для таких сценариев важную роль играют техники оптимизации LLM — например, TurboQuant, которые позволяют запускать более крупные модели на ограниченных ресурсах. Параллельно растёт интерес к более компактным моделям с низкой стоимостью инференса, которые в ряде задач (например, программировании) уже конкурируют с более дорогими решениями. Например, вот оценка стоимости решения задач агента ATLAS на своём сервере с RTX 5060 Ti 16GB, 16 ГБ RAM, ОС RHEL 9 (Proxmox VM) и локальной моделью Qwen3-14B-Q4_K_M, по сравнению со стоимостью API облачных моделей, в задачах LiveCodeBench v5 на программирование:
В данном случае сервер с дешёвой видеокартой за $500 превосходит по качеству программирования платный Claude 4.5 Sonnet. О стоимости нечего и говорить: на локальном сервере расходы только на электричество, поэтому цена на порядок ниже. Прогноз на будущее В будущем инфраструктура VPS для LLM будет расширяться. Наверняка появится больше специализированного серверного железа: ARM-процессоры, ускорители NPU и TPU. Экосистема инструментов продолжит развиваться бурными темпами. Мы уже видим многочисленные фреймворки для работы с агентами (LangChain, LlamaIndex) и надстройки более высокого уровня вроде CrewAI и AutoGen, в которых программные агенты работают почти как обычные сотрудники, а создаются одним нажатием кнопки: ![]() Появились даже отдельные сервисы для генерации аватаров к созданным агентам: ![]() В общем, индустрия бурно развивается. Уже несколько месяцев в списке самых популярных репозиториев Github за неделю — практически только агенты, за редкими исключениями. © 2026 ООО «МТ ФИНАНС» Телеграм: t.me/ainewsline Источник: habr.com Комментарии: |
|||||||||||||||||||||||||