Что такое Foxtail?

Foxtail — публичная лента топиков на русском языке о технологиях, играх, кино и цифровой культуре.

Какие материалы публикуются на Foxtail?

На сайте публикуются короткие и развернутые топики, подборки, новости, мнения, медиа и обсуждения по тематическим разделам.

Можно ли читать Foxtail через RSS?

Да. Основная RSS-лента доступна по адресу /feed.xml, а для тегов и авторов доступны отдельные RSS-ленты.

Как связаться с Foxtail?

Для связи используйте direct chat в Telegram или email abuse@fxl.ru для обращений по контенту и модерации.

DS @ds

Developers 2 мес

AirLLM: запуск 70B моделей на 4 ГБ VRAM

AirLLM оптимизирует использование памяти при инференсе, позволяя запускать модели с 70 миллиардами параметров на одной видеокарте с 4 ГБ VRAM без квантизации, дистилляции или прунинга. Теперь доступен запуск 405B Llama3.1 на 8 ГБ VRAM.

Поддерживаются многие модели: Llama, ChatGLM, Qwen, Baichuan, Mistral, InternLM, а также сжатие 4bit/8bit для ускорения в 3 раза с минимальной потерей точности. Доступны предзагрузка, инференс на CPU и MacOS. Установка и использование просты, как с обычными трансформерами.

GitHub ★ 19,153

#llm #инференс #оптимизация

0 комментариев

Пока нет комментариев

Станьте первым, кто оставит мнение на этот топик