AirLLM оптимизирует использование памяти при инференсе, позволяя запускать модели с 70 миллиардами параметров на одной видеокарте с 4 ГБ VRAM без квантизации, дистилляции или прунинга. Теперь доступен запуск 405B Llama3.1 на 8 ГБ VRAM.
Поддерживаются многие модели: Llama, ChatGLM, Qwen, Baichuan, Mistral, InternLM, а также сжатие 4bit/8bit для ускорения в 3 раза с минимальной потерей точности. Доступны предзагрузка, инференс на CPU и MacOS. Установка и использование просты, как с обычными трансформерами.
GitHub ★ 19,153

0 комментариев