PaddleOCR 3.5: Оптимизация OCR с Transformers

PaddleOCR 3.5: Оптимизация OCR и обработки документов с использованием Transformers

PaddleOCR продолжает развивать свои модели для оптического распознавания символов (OCR), такие как PP-OCRv5, и модели для обработки документов, включая PaddleOCR-VL 1.5. В новой версии PaddleOCR 3.5 добавлена поддержка Transformers в качестве одного из бэкендов для выполнения этих задач. Это открывает новые возможности для разработчиков, позволяя им использовать более гибкий интерфейс для настройки обработки.

Новые возможности и гибкость

С PaddleOCR 3.5 разработчики могут выбирать бэкенд через параметр engine и передавать специфические для бэкенда настройки через engine_config. Это упрощает процесс, так как теперь разработчикам не нужно вручную вызывать каждую внутреннюю компоненту. Transformers обеспечивает дополнительный вариант бэкенда для работы с поддерживаемыми моделями PaddleOCR, что делает интеграцию с окружениями на основе Hugging Face более естественной.

Преодоление сложностей обработки документов

Для приложений в области RAG (retrieval-augmented generation), Document AI и обработки документов часто возникают сложности еще до начала работы с LLM (large language model). Разработчикам необходимо преобразовать PDF-файлы, сканированные документы, скриншоты, таблицы и сложные макеты страниц в надежные структурированные данные. Если на этапе загрузки данных возникают проблемы, это может привести к потере ключевой информации или получению неверных ответов.

PaddleOCR помогает решить эту задачу, предоставляя модели OCR и обработки документов, такие как PP-OCRv5 и PaddleOCR-VL 1.5. С новой версией PaddleOCR 3.5 эти возможности теперь легче интегрируются с решениями на базе Transformers, что снижает трение при интеграции и упрощает путь от документов к RAG, агентам, поисковым системам, аналитике и автоматизации.

Установка и запуск

Для начала работы с PaddleOCR 3.5 необходимо установить PaddleOCR, PaddleX, Transformers и совместимую версию PyTorch для вашего оборудования. Например, для среды CUDA 12.6 команда установки будет выглядеть следующим образом:

```bash
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"
```

Для запуска OCR можно использовать командную строку или Python API. Например, команда для запуска из терминала может выглядеть так:

```bash
paddleocr ocr -i <URL_изображения> --device gpu:0 --engine transformers
```

При использовании Python API можно настроить параметры, такие как dtype и тип устройства, через engine_config.

Заключение

Использование бэкенда Transformers позволяет интегрировать возможности OCR и обработки документов PaddleOCR в более широкие системы на основе Hugging Face. Это особенно полезно для разработчиков, работающих над RAG, Document AI, поисковыми системами и аналитикой, которые уже используют инфраструктуру PyTorch и Transformers для загрузки моделей и развертывания приложений.

Оригинал: HuggingFace Blog