Подборка фреймворков для локального инференса на устройствах

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Всего полтора года назад казалось, что запустить локально языковую или генеративную модель было чем-то из области фантастики, доступной немногим. Тогда было всего несколько самописных вариантов вариантов, и каждый из них требовал знаний, усилий и ресурсов.

Но время шло, и сфера фреймворков для инференса начала развиваться с невероятной скоростью. Появились новые фреймворки и инструменты, библиотеки, интерфейсы для запуска любых моделей на чем угодно.

Сегодня мы имеем десятки вариантов для инференса LLM, от простых и удобных фреймворков до сложных и требовательных систем. Выбор стал настолько широким, что теперь можно подобрать инструмент под конкретную задачу.

Это настоящая революция, которую мы не замечаем, и она происходит прямо на наших глазах. Интересно будет посмотреть. во что это выльется еще через полтора года.

llama.cpp (https://github.com/ggerganov/llama.cpp)

Проект, написаный на С++, позволяет запускать LLM, VLM, MMLM на СUDA, AMD, NPU, Metal. Наиболее распространенные реализации - ollama и LMStudio.

MLC (https://github.com/mlc-ai/web-llm)

Развертывание LLM на WebGPU. Самая быстрая реализация LLM на WebGPU из существующих на сегодняшний день.

MLX (https://github.com/ml-explore/mlx-examples)

Самый быстрый фреймворк для Mac. Поддерживает GenAI (Flux, SDXL и др.), speech-2-text (Whisper), LLM.

Candle (https://github.com/huggingface/candle)

Минималистичный кроссплатформенный ML-фреймворк от Huggingface, написанный на Rust. Поддерживает работу с GPU и прост в использовании.

Transformers.js (https://github.com/xenova/transformers.js)

Фреймворк для запуска моделей напрямую в браузере, без сервера. Написан на Javascript (WebGPU) поверх ONNXruntimeweb.

Ratchet (https://github.com/huggingface/ratchet)

Кроссплатформенный инструментарий от Huggingface для WebGPU/CPU инференса с поддержкой запуска квантованных версий моделей Whisper, Phi 2 & 3 и Moondream. Написан на Rust.

zml (https://github.com/zml/zml)

Кросплатформенный фреймворк с возможностью распределенного запуска модели на разных платформах (CUDA, ROCm и Cloud). Написан на Zig.

gpu.cpp (https://github.com/AnswerDotAI/gpu.cpp)

Простой и эффективный фреймворк для работы с GPU на C++. Работает с CUDA, AMD, Intel GPU, Metal за счет WebGPU.


Источник: github.com

Комментарии: