PaddleOCR — ведущий инструмент OCR и Document AI, который преобразует PDF и изображения в структурированные данные (JSON, Markdown) с высокой точностью. Проект имеет более 70 000 звёзд и используется системами Dify, RAGFlow и Cherry Studio для построения интеллектуальных RAG и агентов.
Включает лёгкую SOTA модель PaddleOCR-VL-1.6 (0.9B) с точностью 96.3% на OmniDocBench. Поддерживает распознавание 100+ языков, таблиц, формул, печатей и древних документов. Выдаёт результаты в Markdown и JSON с детальными координатами.
