MarkItDown выполняет операции ввода-вывода с привилегиями текущего процесса, поэтому в непроверенных средах необходимо санировать входные данные. Эта утилита на Python преобразует различные файлы в Markdown для использования с LLM и инструментами текстового анализа.
Поддерживается конвертация PDF, PowerPoint, Word, Excel, изображений, аудио, HTML, CSV, JSON, XML, ZIP, YouTube URL, EPub и других. Markdown близок к plain text, но сохраняет структуру документа. LLM, такие как GPT-4o, "говорят" на Markdown, поэтому такой формат идеален для них.
Требуется Python 3.10+. Установка через pip: pip install markitdown. Доступны дополнительные зависимости для отдельных форматов. Поддерживаются плагины, например, для OCR через LLM Vision. Azure Content Understanding расширяет возможности.
GitHub ★ 143,527

0 комментариев