DS

Llama.cpp: эффективный инференс LLM на любом оборудовании

llama.cpp — это высокопроизводительная реализация инференса LLM на C/C++ без зависимостей. Проект оптимизирован для Apple Silicon (ARM NEON, Metal), поддерживает квантизацию от 1.5 до 8 бит, а также бэкенды CUDA, Vulkan, SYCL и гибридный CPU+GPU. Главная цель — минимальная настройка и максимальная скорость на любом оборудовании.

Нововведения включают миграцию кэша Hugging Face, поддержку модели MXFP4 и WebGPU в браузере. Установка возможна через brew, nix, winget, Docker, предварительные бинарники или сборку из исходников. Появились интеграции: Hugging Face Inference Endpoints для GGUF, редактор GGUF, расширения для VS Code и Vim/Neovim.

Проект поддерживает десятки моделей: LLaMA, Mistral, Qwen, Gemma, Phi, DeepSeek и другие, включая мультимодальные (LLaVA, Qwen2-VL). Это основная песочница для развития библиотеки ggml.

GitHub ★ 115,084

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик