티스토리 뷰

PyMuPDF-Layout은 어떻게 시작되었을까요?
*PyMuPDF-Layout은 'PyMuPDF Pro' 패키지에 포함된 표 등 레이아웃 전용 추출 라이브러리입니다. 복잡한 레이아웃 문서를 파싱할때 PyMuPDF Pro와 Layout을 이용하면 더욱 정확한 문서 파싱이 가능합니다.
지난해 9월, 유럽과 아시아 각지에서 일하던 ePapyrus와 Artifex 팀원들이 한자리에 모였습니다.
( ePapyrus와 Artifex는 전 세계 거의 모든 타임존에 팀원이 있는 회사입니다.)
장소는 샌프란시스코 본사에서 북쪽으로 약 70마일 떨어진 작은 해안 도시였습니다.
안개가 자욱한 그곳에서, 우리는 일주일 내내 단 하나의 질문만을 놓고 이야기를 나눴습니다.
35년 동안 쌓아온 문서 처리 경험, 특히 PDF처럼 구조가 복잡한 문서를 다뤄온 노하우를
최신 AI 기술과 결합하면, 지금보다 훨씬 나은 데이터 파싱을 만들 수 있지 않을까?
ePapyrus와 Artifex는 이미 PyMuPDF 제품군을 통해 많은 개발자와 기업에 문서 파싱 솔루션을 제공하고 있습니다.
마크다운 출력에 특화된 PyMuPDF4LLM을 포함해,
Mistral AI, Harvey AI, DocuSign, Oracle 같은 글로벌 기업들도 우리 기술을 사용하고 있죠.
하지만 AI 기술이 빠르게 발전하면서, 문서 파싱 분야 역시 큰 변화를 겪고 있었습니다.
VLM이 가진 한계, 그리고 다른 접근
요즘 문서 파싱에서 많이 이야기되는 방식 중 하나가 VLM(Vision Language Model) 입니다.
PDF를 그대로 분석하는 대신, 페이지를 이미지로 변환한 뒤
Vision Transformer 기반 모델로 내용을 추출하는 방식이죠.
분명 혁신적인 접근입니다.
하지만 치명적인 단점도 있습니다.
비용과 속도입니다.
VLM은 막대한 GPU 리소스를 필요로 합니다.
처리 속도는 느려지고, 운영 비용도 빠르게 증가하죠.
대규모 투자를 받은 스타트업이라면 감당할 수 있을지 모르지만,
대부분의 팀에게는 현실적인 선택이 아닙니다.
무엇보다 중요한 문제는 따로 있었습니다.
많은 팀들이 문서를 잘 모른 채 문서 문제를 풀고 있다는 점이었습니다.
PDF의 구조를 버리고, 단순한 이미지로 취급한 채 문제를 해결하려는 접근.
우리는 이 방식이 과연 최선일까 고민했습니다.
우리가 던진 질문
ePapyrus와 Artifex 에는 다른 팀들이 갖지 못한 자산이 있습니다.
35년간 쌓아온 PDF 처리 기술과,
현대적인 ML을 연구하는 AI 엔지니어 팀이 함께 있다는 점입니다.
그래서 우리는 이렇게 질문했습니다.
네이티브 PDF 추출 과정에서 이미 알고 있는 구조 정보를 활용해
GPU 없이도 학습 가능한 ML 모델을 만들 수는 없을까?
속도와 정확도를 모두 잡을 수 있는 진짜 하이브리드 방식은 없을까?
이 질문을 던질 수 있는 회사는 사실상 우리뿐이었습니다.
그리고 그 질문이 PyMuPDF-Layout의 출발점이 되었습니다.
PyMuPDF-Layout: 구조부터 이해하는 접근
1년간의 개발 끝에, 우리는 이 방식을 베타 테스터에게 공개할 수 있는 단계에 이르렀습니다.
이 하이브리드 접근법을 우리는 PyMuPDF-Layout이라고 부릅니다.
PyMuPDF-Layout은 문서를 이미지로 바꿔 거대한 신경망에 맡기지 않습니다.
대신, PDF 자체가 가진 구조 정보에서부터 분석을 시작합니다.
먼저 MuPDF의 네이티브 파서를 사용해 다음과 같은 정보를 정확하게 추출합니다.
- 폰트 크기와 스타일
- 줄 간격과 정렬 패턴
- 문자와 텍스트 박스의 위치
- 들여쓰기와 마진 정보
이 데이터는 추측이 아닙니다.
PDF 구조로부터 직접 읽어낸, 정확한 수치 정보입니다.
문서를 사진으로 보는 것이 아니라,
문서의 “DNA”를 읽는 것에 가깝습니다.
작은 모델로, 더 빠르게
이렇게 추출한 구조 정보를 Graph Neural Network(GNN) 에 전달합니다.
GNN은 텍스트 박스를 노드로, 공간적 관계를 엣지로 삼아
제목, 본문, 표, 이미지 같은 문서 요소를 구분하는 패턴을 학습합니다.
이 방식의 핵심은 명확합니다.
- VLM: 고해상도 이미지를 거대한 모델로 처리 → GPU 필요
- PyMuPDF-Layout: 구조 정보 먼저 추출 → 작은 GNN으로 판단 → CPU만 사용
무거운 연산은 휴리스틱 기반 구조 분석이 먼저 처리하고,
모델은 판단에만 집중합니다.

결과는 분명합니다
PyMuPDF-Layout은 경쟁 솔루션 대비 최대 10배 빠른 속도를 보여줍니다.
그것도 GPU 없이, CPU 환경에서만 동작합니다.
- GPU 비용 없음
- 클라우드 API 의존 없음
- 로컬 환경에서 바로 실행 가능
PyMuPDF-Layout은 PyPI에서 바로 설치할 수 있으며,
라이브 데모도 함께 제공하고 있습니다.
문의하기 | 무엇이든 물어보세요.
무엇이든 물어보세요. 빠르고 친절하게 답변해드립니다.
epapyrus.com
'PyMuPDF Pro' PyMuPDF Layout 시작하기!
이 블로그 포스트에서는 PyMuPDF Pro에 포함되어 있는 PyMuPDF Layout을 어떻게 시작하는지와, 무엇을 할 수 있는지 단계별로 설명합니다.Python과 명령줄(Command Line)에 대한 기본 지식, 그리고 PyPI(Python Pa
epapyrus.tistory.com
PyMuPDF Pro | 문서 데이터 추출 라이브러리
전 세계 개발자들이 사랑하는 문서 데이터 추출 파이썬 라이브러리 PyMuPDF Pro 글로벌 다운로드 9,000만 건 이상, 일간 다운로드 100만 건 이상
epapyrus.com
'PyMuPDF Pro' 카테고리의 다른 글
| AI용 데이터 추출 어떻게 하고 계신가요? 문서 포맷마다 다른 문서 파서 쓰면 안되는 이유 (0) | 2025.12.08 |
|---|---|
| 비전 모델이 따라올 수 없는 문서 이해력: PDF 네이티브 접근 방식의 힘 (0) | 2025.12.05 |
| Docling vs PyMuPDF-Layout의 성능 비교 결과! (0) | 2025.12.04 |
| 'PyMuPDF Pro' PyMuPDF Layout 시작하기! (0) | 2025.12.04 |
| PyMuPDF Pro 설치 가이드 (0) | 2025.11.11 |
- Total
- Today
- Yesterday
- 예지보전
- 인공지능
- djvu
- pdf추출
- epapyrus
- pdf뷰어
- Ai
- 이벤트
- 고장예측
- pdf프로
- ocr
- PDF-Pro
- 파이썬라이브러리
- 문서ai
- PDF편집
- paperless
- pdf프로그램
- 페이퍼리스
- 피터팬
- 피터펜
- 모터센스
- PDF변환
- 전자서식
- 이파피루스
- PDFpro
- 스마트공장
- PyMuPDFPro
- 전자문서
- 아티펙스
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |