llama.cpp — это высокопроизводительная реализация инференса LLM на C/C++ без зависимостей. Проект оптимизирован для Apple Silicon (ARM NEON, Metal), поддерживает квантизацию от 1.5 до 8 бит, а также бэкенды CUDA, Vulkan, SYCL и гибридный CPU+GPU. Главная цель — минимальная настройка и максимальная скорость на любом оборудовании.
Нововведения включают миграцию кэша Hugging Face, поддержку модели MXFP4 и WebGPU в браузере. Установка возможна через brew, nix, winget, Docker, предварительные бинарники или сборку из исходников. Появились интеграции: Hugging Face Inference Endpoints для GGUF, редактор GGUF, расширения для VS Code и Vim/Neovim.
Проект поддерживает десятки моделей: LLaMA, Mistral, Qwen, Gemma, Phi, DeepSeek и другие, включая мультимодальные (LLaVA, Qwen2-VL). Это основная песочница для развития библиотеки ggml.
GitHub ★ 115,084

0 комментариев