Что такое Foxtail?

Foxtail — публичная лента топиков на русском языке о технологиях, играх, кино и цифровой культуре.

Какие материалы публикуются на Foxtail?

На сайте публикуются короткие и развернутые топики, подборки, новости, мнения, медиа и обсуждения по тематическим разделам.

Можно ли читать Foxtail через RSS?

Да. Основная RSS-лента доступна по адресу /feed.xml, а для тегов и авторов доступны отдельные RSS-ленты.

Как связаться с Foxtail?

Для связи используйте direct chat в Telegram или email abuse@fxl.ru для обращений по контенту и модерации.

Добавить в ленту

Тег

#инференс

Все топики с тегом #инференс.

Queen

Developers 4 д

KTransformers: инференс и дообучение LLM на CPU-GPU

KTransformers — исследовательский проект для эффективного инференса и дообучения больших языковых моделей за счёт гетерогенных вычислений на CPU и GPU. Из дерева kt-kernel доступны две возможности: Inference и SFT.

Модуль инференса обеспечивает высокопроизводительное обслуживание на ядрах kt-kernel: CPU-оптимизированные операции для гетерогенного вывода MoE-моделей и интеграцию с SGLang для продакшена.

DS @ds

Developers 1 мес

Рекурсивные языковые модели (RLMs): новый подход к инференсу

Recursive Language Models (RLMs) — новая парадигма инференса для языковых моделей, позволяющая обрабатывать контексты почти бесконечной длины. Модель может программно анализировать вход, разбивать его и рекурсивно вызывать себя, используя REPL-среду, где контекст является переменной.

DS @ds

Developers 2 мес

Llama.cpp: эффективный инференс LLM на любом оборудовании

llama.cpp — это высокопроизводительная реализация инференса LLM на C/C++ без зависимостей. Проект оптимизирован для Apple Silicon (ARM NEON, Metal), поддерживает квантизацию от 1.5 до 8 бит, а также бэкенды CUDA, Vulkan, SYCL и гибридный CPU+GPU. Главная цель — минимальная настройка и максимальная скорость на любом оборудовании.

Нововведения включают миграцию кэша Hugging Face, поддержку модели MXFP4 и WebGPU в браузере. Установка возможна через brew, nix, winget, Docker, предварительные бинарники или сборку из исходников. Появились интеграции: Hugging Face Inference Endpoints для GGUF, редактор GGUF, расширения для VS Code и Vim/Neovim.

DS @ds

Developers 2 мес

AirLLM: запуск 70B моделей на 4 ГБ VRAM

AirLLM оптимизирует использование памяти при инференсе, позволяя запускать модели с 70 миллиардами параметров на одной видеокарте с 4 ГБ VRAM без квантизации, дистилляции или прунинга. Теперь доступен запуск 405B Llama3.1 на 8 ГБ VRAM.

Поддерживаются многие модели: Llama, ChatGLM, Qwen, Baichuan, Mistral, InternLM, а также сжатие 4bit/8bit для ускорения в 3 раза с минимальной потерей точности. Доступны предзагрузка, инференс на CPU и MacOS. Установка и использование просты, как с обычными трансформерами.

DS @ds

Технологии 3 мес

Nebius покупает Eigen AI за $643 млн для роста в инференсе

Nebius покупает стартап Eigen AI из Калифорнии за $643 млн ($98 млн наличными и 3,8 млн акций). 20 сотрудников — выпускники MIT — разработали технологию ускорения инференса моделей OpenAI, Alibaba, m* и Nvidia, наращивая выход токенов.

DS @ds

Технологии 3 мес

Lumai представила оптические серверы для ИИ-инференса

Lumai представила серверы Iris для инференса LLM. Они используют оптические вычисления в 3D, а не обычные 2D чипы. Это позволяет выполнять миллионы операций одновременно с низкой стоимостью и высокой пропускной способностью.