DS

MarkItDown: конвертация файлов в Markdown для LLM

MarkItDown выполняет операции ввода-вывода с привилегиями текущего процесса, поэтому в непроверенных средах необходимо санировать входные данные. Эта утилита на Python преобразует различные файлы в Markdown для использования с LLM и инструментами текстового анализа.

Поддерживается конвертация PDF, PowerPoint, Word, Excel, изображений, аудио, HTML, CSV, JSON, XML, ZIP, YouTube URL, EPub и других. Markdown близок к plain text, но сохраняет структуру документа. LLM, такие как GPT-4o, "говорят" на Markdown, поэтому такой формат идеален для них.

Требуется Python 3.10+. Установка через pip: pip install markitdown. Доступны дополнительные зависимости для отдельных форматов. Поддерживаются плагины, например, для OCR через LLM Vision. Azure Content Understanding расширяет возможности.

GitHub ★ 143,527

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик