PyMuPDF-Layout은 어떻게 시작되었을까요?*PyMuPDF-Layout은 'PyMuPDF Pro' 패키지에 포함된 표 등 레이아웃 전용 추출 라이브러리입니다. 복잡한 레이아웃 문서를 파싱할때 PyMuPDF Pro와 Layout을 이용하면 더욱 정확한 문서 파싱이 가능합니다.지난해 9월, 유럽과 아시아 각지에서 일하던 ePapyrus와 Artifex 팀원들이 한자리에 모였습니다.( ePapyrus와 Artifex는 전 세계 거의 모든 타임존에 팀원이 있는 회사입니다.)장소는 샌프란시스코 본사에서 북쪽으로 약 70마일 떨어진 작은 해안 도시였습니다.안개가 자욱한 그곳에서, 우리는 일주일 내내 단 하나의 질문만을 놓고 이야기를 나눴습니다.35년 동안 쌓아온 문서 처리 경험, 특히 PDF처럼 구조가 복잡..
AI용 데이터 추출 어떻게 하고 계신가요?문서 포맷마다 다른 파싱 제품을 돌려가며 쓰고 계시진 않으신가요 PDF는 A 솔루션아래한글(HWP,HWPX)은 B 제품Word·Excel은 또 다른 프로그램 제각각 다른 문서 파싱 프로그램으로 추출된 데이터는 페이지 정보, 위치 정보가 일관되게 추출되지 않습니다.막상 추출한 데이터를 AI 서비스에 적용할 때 문제가 발생할 수 밖에 없습니다. AI 기반 문서 검색(Q&A), 요약, 분석 LLM 서비스를 구축해 놓았을 때,문서마다 다른 파서로 데이터를 추출했다면, 질의 응답의 근거가 되는 부분을 찾아내기가 어려워집니다. 추출 된 데이터의 좌표, 구조가 일관되지 않고 파서마다 달라질 확률이 있기 때문입니다.실제 업무에 활용할 수 있는 AI 질의 응답 서비스는“어떤 부..
Google이 최근 Gemini 3.0을 공개하면서 문서 AI 업계가 꽤 들썩이고 있습니다.멀티모달 성능이 좋아졌다는 얘기도 많고, 실제로 문서 처리 회사들 중 일부는 벌써 파싱 작업에 적용해서 필기체 인식이나 읽기 순서 감지 같은 부분의 개선을 확인했다고 합니다.하지만 초기 사용자들은 여전히 해결되지 않은 문제도 발견했습니다.복잡한 레이아웃에서는 성능이 떨어지고, 취소선 같은 텍스트 스타일을 제대로 못 잡는 경우가 많으며, 특정 텍스트 위치를 박스로 표시해 인용하는(bounding-box citation) 기능도 정확하지 않다는 점이죠.사실 이건 그렇게 놀라운 일도 아닙니다.PDF를 다룰 때 비전 기반 시스템은 근본적으로 넘어야 할 벽이 있어요.쉽게 말하면:애초에 문제 자체를 잘못 정의하고 있는 셈입니..
이 포스팅에서는 PyMuPDF-Layout이 DocLayNet 데이터셋에서 어느 정도 성능을 보여주는지, 그리고 Docling과 비교했을 때 어떤 특징을 가지는지를 정리했습니다.레이아웃 감지는 IoU 기반 정확도로 평가했고, 모델 효율성도 함께 비교했습니다.🔍 Methodology — 어떻게 평가했을까?Dataset: DocLayNet (Pfitzmann et al., 2022)우리가 사용한 데이터는 DocLayNet이라는 대규모 문서 레이아웃 데이터셋입니다.훈련 데이터: 69,000 페이지검증 데이터: 6,480 페이지문서 종류: 재무 보고서, 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서 등레이블 종류: 총 11개caption, footnote, formula, list-item, page-foot..
- Total
- Today
- Yesterday
- 전자문서
- epapyrus
- 모터센스
- 고장예측
- pdf추출
- 스마트공장
- PDF변환
- PDF편집
- 이파피루스
- 파이썬라이브러리
- 이벤트
- PyMuPDFPro
- 인공지능
- 피터펜
- 전자서식
- pdf뷰어
- pdf프로
- Ai
- PDFpro
- 아티펙스
- pdf프로그램
- ocr
- 페이퍼리스
- 문서ai
- 예지보전
- djvu
- paperless
- PDF-Pro
- 피터팬
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |