Локально развернуть LLaMA можно даже на обычном компьютере, если делать это грамотно

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2026-01-28 12:25

примеры ии

Главное правило экономии - использовать квантованные модели. Форматы Q4 или Q5 уменьшают потребление памяти в разы, а качество падает незначительно.

Не запускай через тяжёлые ML-фреймворки без нужды. Для домашнего использования лучше подходят llama.cpp или Ollama - они выжимают максимум из CPU и RAM и не требуют мощной видеокарты.

Если есть GPU с 6-8 GB VRAM - спокойно запускаются модели 7B в Q4.

Если только CPU - выбирай 3B или 7B Q4 и не ставь большое контекстное окно.

Контекст = память. Чем он больше, тем тяжелее модели. Для большинства задач хватает 2k-4k токенов.

Используй формат GGUF - он сделан именно для быстрого локального инференса и загружается заметно легче.

Важно подбирать модель под задачу:

- для кода - Code LLaMA

- для общения - instruct / chat версии

- больше параметров не всегда значит лучше

Локальный запуск LLaMA - это баланс между размером модели, квантованием и твоим железом.

curl -fsSL https://ollama.com/install.sh | sh

ollama run llama3:8b-instruct-q4

./main -m model.gguf -c 2048 -t 8


Источник: ollama.com

Комментарии: