Skip to content

PaddleOCR

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

PaddleOCR-VL

문서 파싱에 최적화된 초소형 비전-언어 모델(VLM) 로, 한국어 포함 109개 언어를 지원하며 수식,표,차트,손글씨 등 복잡한 요소를 정확히 인식함

  • 핵심 모델 PaddleOCR-VL-0.9B는 NaViT 기반 동적 해상도 비주얼 인코더와 ERNIE-4.5-0.3B 언어 모델을 결합해 고정밀 인식과 빠른 추론 속도를 동시에 달성
  • 작지만 강력한 VLM 아키텍처로 연산 효율성을 유지하면서 기존 대형 모델 수준의 인식 성능 확보
  • OmniDocBench등 에서 기존 파이프라인 기반 모델을 뛰어넘는 SOTA(최고 수준 성능) 를 기록
  • 한글·중국어·영어·일본어는 물론, 러시아어·아랍어·힌디어·태국어 등 다양한 문자체계 지원하여 전 세계 문서 처리 자동화에 활용 가능
  • 경량 구조로 GPU 자원 사용량이 적고, Docker·CLI·Python API를 통해 손쉽게 배포 및 통합 가능
  • 72B급 멀티모달 모델을 일부 항목에서 능가하며, 실제 환경에 즉시 적용 가능한 다국어 문서 처리 솔루션

See also

Favorite site