Тег

#llm

Все топики с тегом #llm.

Queen

MinerU — точный парсинг документов для LLM и RAG

MinerU — это высокоточный движок для парсинга документов, предназначенный для рабочих процессов LLM, RAG и Agent. Он конвертирует PDF, DOCX, PPTX, XLSX, изображения и веб-страницы в структурированный Markdown или JSON.

Движок использует гибрид VLM и OCR, поддерживает 109 языков, включая сканированные документы и рукописный текст. Встроенный MCP Server и интеграция с LangChain, Dify, FastGPT упрощают разработку. Доступны бэкенды: pipeline (CPU/GPU), vlm-engine (высокая точность) и hybrid-engine (баланс).

Queen

Hiring Agent: оценка резюме с анализом GitHub через LLM

Hiring Agent — это pipeline для оценки резюме: извлекает структурированные данные из PDF, обогащает их сигналами с GitHub и формирует объективную оценку с категориями, доказательствами и пояснениями.

Система конвертирует PDF в Markdown, разбирает секции через LLM (локально через Ollama или через Google Gemini), затем анализирует GitHub-профиль: проекты, коммиты, вклад автора. Выбираются топ-7 репозиториев.

DS

Firecrawl — мощный API для извлечения веб-данных

Firecrawl — API для поиска и сбора веб-данных. Охватывает 96% веба с P95 задержкой 3,4 с. Выдаёт чистый Markdown, JSON и скриншоты. Поддерживает PDF, DOCX, действия (клик, скролл). Готов для LLM-агентов.

Основные функции: Search (поиск), Scrape (преобразование URL), Interact (действия через AI), Agent (автосбор), Crawl (обход), Map (карта URL) и Batch Scrape. Открытый код (AGPL-3.0), облачная версия. Легко подключается к AI-агентам и MCP.

DS

Llama.cpp: эффективный инференс LLM на любом оборудовании

llama.cpp — это высокопроизводительная реализация инференса LLM на C/C++ без зависимостей. Проект оптимизирован для Apple Silicon (ARM NEON, Metal), поддерживает квантизацию от 1.5 до 8 бит, а также бэкенды CUDA, Vulkan, SYCL и гибридный CPU+GPU. Главная цель — минимальная настройка и максимальная скорость на любом оборудовании.

Нововведения включают миграцию кэша Hugging Face, поддержку модели MXFP4 и WebGPU в браузере. Установка возможна через brew, nix, winget, Docker, предварительные бинарники или сборку из исходников. Появились интеграции: Hugging Face Inference Endpoints для GGUF, редактор GGUF, расширения для VS Code и Vim/Neovim.

DS

AirLLM: запуск 70B моделей на 4 ГБ VRAM

AirLLM оптимизирует использование памяти при инференсе, позволяя запускать модели с 70 миллиардами параметров на одной видеокарте с 4 ГБ VRAM без квантизации, дистилляции или прунинга. Теперь доступен запуск 405B Llama3.1 на 8 ГБ VRAM.

Поддерживаются многие модели: Llama, ChatGLM, Qwen, Baichuan, Mistral, InternLM, а также сжатие 4bit/8bit для ускорения в 3 раза с минимальной потерей точности. Доступны предзагрузка, инференс на CPU и MacOS. Установка и использование просты, как с обычными трансформерами.

DS

MarkItDown: конвертация файлов в Markdown для LLM

MarkItDown выполняет операции ввода-вывода с привилегиями текущего процесса, поэтому в непроверенных средах необходимо санировать входные данные. Эта утилита на Python преобразует различные файлы в Markdown для использования с LLM и инструментами текстового анализа.

Поддерживается конвертация PDF, PowerPoint, Word, Excel, изображений, аудио, HTML, CSV, JSON, XML, ZIP, YouTube URL, EPub и других. Markdown близок к plain text, но сохраняет структуру документа. LLM, такие как GPT-4o, "говорят" на Markdown, поэтому такой формат идеален для них.

DS

LaDiR: как шум превращается в логику для языковых моделей

image source

LaDiR генерирует скрытые цепочки рассуждений, которые на старте выглядят как случайный шум, а затем постепенно превращаются в логичные шаги. Фреймворк запускает несколько параллельных процессов, каждый из которых проходит свой путь «очистки». Специальный механизм заставляет эти ветви исследовать разные варианты, чтобы они не сходились к одному решению слишком рано. Когда модель считает, что размышление завершено, она переходит к последовательному созданию итогового ответа.