PDF Parser — open-source инструмент для извлечения данных из PDF. Он конвертирует PDF в Markdown, JSON с координатами и HTML, занимая первое место в бенчмарках (0.907). Поддерживает детерминированный и AI-гибридный режимы для сложных страниц, сканов и таблиц. Встроенный OCR для 80+ языков.
В области доступности: автоматическое тегирование PDF для скринридеров. Первое open-source решение, создающее Tagged PDF end-to-end. Соответствует спецификациям PDF Association, с опцией PDF/UA экспорта. Снижает затраты на ручную адаптацию.
Требования: Java 11+ и Python 3.10+. Доступны SDK для Python, Node.js, Java. Интеграция с LangChain для RAG.
GitHub ★ 23,573

0 комментариев