Как установить DeepSeek на сервере: практическое руководство |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-03-27 11:26 Рано или поздно наступает момент, когда понимаете: без LLM, работающей только на вас, дальше жить нельзя. Публичные модели, даже в платных подписках, — это всегда риск. Сомнения в том, не сливает ли какой-нибудь OpenAI или Alibaba вашу переписку, никуда не деваются, а внезапные «извините, этот сервис недоступен в вашем регионе» или жесткая цензура окончательно все портят. В этой статье попытаемся решить проблему - рассмотрим, как запустить DeepSeek на своем облачном сервере, сколько ей нужно памяти и какие конфиги прописать, чтобы все запустилось с первого раза. Что такое DeepSeek Начну с обязательной справки, без этого никак:
Открытость моделей и исходного кода предоставляет пользователям возможность выбора между конфиденциальностью и удобством:
Для запуска локальной версии DeepSeek нужен мощный сервер. Но насколько мощный? Ответ на этот вопрос зависит от ваших ожиданий от большой языковой модели, а также терпения и бюджета. Каждая большая языковая модель имеет метрику «количество параметров». Если упрощать, то чем больше параметров — тем умнее модель и тем больше ресурсов нужно, чтобы она работала. Полная модель DeepSeek-V3.2 содержит 685 млрд параметров. Идеальный сервер для запуска такой модели состоит из 16 связанных между собой видеокарт NVIDIA A100 по 80 ГБ VRAM каждая, а также более 768 ГБ оперативной памяти. Это очень дорогой сервер, который избыточен для домашнего использования. Для домашнего использования предлагаются дистиллированные модели: более компактные модели, которые обучаются от большой модели. Так, для размышляющей DeekSeek R1 официально существуют дистиллированные модели от 1,5 до 70 млрд параметров. Для запуска модели на семь млрд параметров подходит видеокарта для современных игр, например, 30-ая серия RTX. Дистиллированные модели могут запускаться на процессоре, а также на разных видеокартах и специальных ускорителях. Оригинальные модели DeepSeek адаптированы для видеокарт NVIDIA с поддержкой технологии CUDA, а с недавнего времени — и для ИИ-ускорителей (NPU) Huawei Ascend. Для примера будем использовать сервер с видеокартой NVIDIA A5000 — серверным аналогом RTX 3080. Заказываем сервер Для запуска локального DeepSeek воспользуемся облачной платформой Selectel. Облачная платформа позволяет удобно масштабировать виртуальный сервер в случае, если нужно больше ресурсов. Открываем панель управления, выбираем Продукты ? Облачные вычисления. Странице серверов нажимаем Создать сервер. Даем говорящее имя серверу, выбираем регион «Москва» и пул «ru-7», потому что там большой выбор видеокарт, доступных в облачной платформе. Затем выбираем GPU-конфигурацию и в фильтре по видеокартам выбираем желаемую видеокарту, в нашем случае — A5000. Благодаря автовыбору образа на виртуальную машину будет установлена Ubuntu с драйверами для видеокарты. Автовыбор выберет образ с драйверами для видеокарты. Нас устраивает выбор. Добавляем SSH-ключ, выбираем настройки сети и дисков. Рекомендую использовать SSD для быстрой загрузки моделей в память. Создаем сервер и через пару минут он становится доступен. Проверяем подключение по SSH и наличие видеокарты. Теперь у нас есть сервер, готовый для экспериментов. Осталось поставить большую языковую модель. Как это можно сделать? Есть несколько путей. Установка DeepSeek Если вы хотите поиграть с локальной языковой моделью, то вам стоит обратить внимание на решения, которые автоматически скачивают модели и предоставляют удобные веб-интерфейсы для взаимодействия. Если же вы хотите использовать большую языковую модель в своем проекте без лишних зависимостей, то придется выполнить на пару команд больше. Вне зависимости от выбранного вами способа будет нелишним знать, что все опубликованные модели хранятся на сайте HuggingFace. Если вы хотите скачать модель и использовать ее в своем Python-коде, то, наверняка вы знаете про huggingface-hub и знаете, что делать. Если же вы в первый раз работаете с большими языковыми моделями, то лучше обратиться к инструменту, который сделает большинство работы за вас.
Устанавливаем git: Устанавливаем Docker. Затем устанавливаем Harbor: После установки перезайдите на сервер — это необходимо, чтобы команда harbor стала доступна.
Проверяем успешность установки: Докер присутствует, графический ускоритель определяется и доступен в контейнерах. Значит, можно продолжать. Скачиваем думающую модель deepseek-r1 на восемь млрд параметров. Возможные значения количества параметров можно найти в репозитории ollama. После завершения загрузки запускаем сервисы. Обратите внимание на вывод webui — это адрес, по которому доступен веб-интерфейс в виде чата. Также доступен ollama-совместимый API для прямого взаимодействия с моделью. Во имя безопасности оба порта доступны только на локальном интерфейсе. Есть два решения:
Воспользуемся вторым вариантом, так как это быстрее и не дает доступа всему интернету к нашему серверу. Теперь открываем в браузере http://localhost:33801 и видим веб-интерфейс, который предлагает зарегистрироваться. Данные сохраняются локально, так что можете использовать любые данные.
![]() После регистрации выбираем модель и можем с ней общаться. Так как DeekSeek-R1 — это размышляющая модель, то генерация ответа занимает некоторое время. Скорость ответа так же зависит от выбранного графического ускорителя. К счастью, облачная платформа позволяет легко изменить конфигурацию сервера. Расширение Если вам хочется ускорить получение ответов или, наоборот, сократить расходы, то это легко сделать. Откройте карточку сервера и нажмите Изменить конфигурацию. Выберите подходящую конфигурацию и нажмите Сохранить и перезагрузить. Как следует из текста кнопки — сервер будет перезагружен. После перезагрузки вы можете проверить новую видеокарту. В моих экспериментах я выяснил, что для модели 8B нужно 12 ГБ VRAM, 32B — 28 ГБ, а для 70B — 51 ГБ VRAM. Полная модель, увы, не под силу одной видеокарте. Заключение Развернуть большую языковую модель — это несложный процесс. Главная проблема тут не в софте, а в железе. Если видеопамяти мало, то пытаться впихнуть невпихуемое нет смысла — получите один токен в минуту и кучу нервов. Для большинства задач по кодингу и текстам версии 8B или 14B хватает за глаза. Лучше взять модель полегче, зато она будет отвечать мгновенно, чем гнаться за топовыми параметрами на неподходящем железе. А для каких рабочих задач вы используете локальные модели? Делитесь своим мнением в комментах. Телеграм: t.me/ainewsline Источник: habr.com Комментарии: |
|