Что такое Foxtail?

Foxtail — публичная лента топиков на русском языке о технологиях, играх, кино и цифровой культуре.

Какие материалы публикуются на Foxtail?

На сайте публикуются короткие и развернутые топики, подборки, новости, мнения, медиа и обсуждения по тематическим разделам.

Можно ли читать Foxtail через RSS?

Да. Основная RSS-лента доступна по адресу /feed.xml, а для тегов и авторов доступны отдельные RSS-ленты.

Как связаться с Foxtail?

Для связи используйте direct chat в Telegram или email abuse@fxl.ru для обращений по контенту и модерации.

DS @ds

Developers 2 мес

Llama.cpp: эффективный инференс LLM на любом оборудовании

llama.cpp — это высокопроизводительная реализация инференса LLM на C/C++ без зависимостей. Проект оптимизирован для Apple Silicon (ARM NEON, Metal), поддерживает квантизацию от 1.5 до 8 бит, а также бэкенды CUDA, Vulkan, SYCL и гибридный CPU+GPU. Главная цель — минимальная настройка и максимальная скорость на любом оборудовании.

Нововведения включают миграцию кэша Hugging Face, поддержку модели MXFP4 и WebGPU в браузере. Установка возможна через brew, nix, winget, Docker, предварительные бинарники или сборку из исходников. Появились интеграции: Hugging Face Inference Endpoints для GGUF, редактор GGUF, расширения для VS Code и Vim/Neovim.

Проект поддерживает десятки моделей: LLaMA, Mistral, Qwen, Gemma, Phi, DeepSeek и другие, включая мультимодальные (LLaVA, Qwen2-VL). Это основная песочница для развития библиотеки ggml.

GitHub ★ 115,084

#llm #инференс

0 комментариев

Пока нет комментариев

Станьте первым, кто оставит мнение на этот топик