AI용 데이터 추출 어떻게 하고 계신가요?문서 포맷마다 다른 파싱 제품을 돌려가며 쓰고 계시진 않으신가요 PDF는 A 솔루션아래한글(HWP,HWPX)은 B 제품Word·Excel은 또 다른 프로그램 제각각 다른 문서 파싱 프로그램으로 추출된 데이터는 페이지 정보, 위치 정보가 일관되게 추출되지 않습니다.막상 추출한 데이터를 AI 서비스에 적용할 때 문제가 발생할 수 밖에 없습니다. AI 기반 문서 검색(Q&A), 요약, 분석 LLM 서비스를 구축해 놓았을 때,문서마다 다른 파서로 데이터를 추출했다면, 질의 응답의 근거가 되는 부분을 찾아내기가 어려워집니다. 추출 된 데이터의 좌표, 구조가 일관되지 않고 파서마다 달라질 확률이 있기 때문입니다.실제 업무에 활용할 수 있는 AI 질의 응답 서비스는“어떤 부..
Google이 최근 Gemini 3.0을 공개하면서 문서 AI 업계가 꽤 들썩이고 있습니다.멀티모달 성능이 좋아졌다는 얘기도 많고, 실제로 문서 처리 회사들 중 일부는 벌써 파싱 작업에 적용해서 필기체 인식이나 읽기 순서 감지 같은 부분의 개선을 확인했다고 합니다.하지만 초기 사용자들은 여전히 해결되지 않은 문제도 발견했습니다.복잡한 레이아웃에서는 성능이 떨어지고, 취소선 같은 텍스트 스타일을 제대로 못 잡는 경우가 많으며, 특정 텍스트 위치를 박스로 표시해 인용하는(bounding-box citation) 기능도 정확하지 않다는 점이죠.사실 이건 그렇게 놀라운 일도 아닙니다.PDF를 다룰 때 비전 기반 시스템은 근본적으로 넘어야 할 벽이 있어요.쉽게 말하면:애초에 문제 자체를 잘못 정의하고 있는 셈입니..
이 포스팅에서는 PyMuPDF-Layout이 DocLayNet 데이터셋에서 어느 정도 성능을 보여주는지, 그리고 Docling과 비교했을 때 어떤 특징을 가지는지를 정리했습니다.레이아웃 감지는 IoU 기반 정확도로 평가했고, 모델 효율성도 함께 비교했습니다.🔍 Methodology — 어떻게 평가했을까?Dataset: DocLayNet (Pfitzmann et al., 2022)우리가 사용한 데이터는 DocLayNet이라는 대규모 문서 레이아웃 데이터셋입니다.훈련 데이터: 69,000 페이지검증 데이터: 6,480 페이지문서 종류: 재무 보고서, 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서 등레이블 종류: 총 11개caption, footnote, formula, list-item, page-foot..
이 블로그 포스트에서는 PyMuPDF Pro에 포함되어 있는 PyMuPDF Layout을 어떻게 시작하는지와, 무엇을 할 수 있는지 단계별로 설명합니다.Python과 명령줄(Command Line)에 대한 기본 지식, 그리고 PyPI(Python Package Index)에서 패키지를 설치해본 경험이 필요합니다.PyMuPDF Layout 설치하기먼저 PyPI에서 필요한 PyMuPDF Pro패키지를 설치해야 합니다.명령줄 또는 터미널을 열고 다음을 실행하세요:pip install pymupdf-layoutpip install pymupdf4llm요약하자면, PyMuPDF Layout은 추출해야 할 문서 레이아웃을 감지하는 역할,그리고 PyMuPDF4LLM은 결과물을 Markdown/JSON/텍스트로 출력하..
- Total
- Today
- Yesterday
- Ai
- 예지보전
- 문서ai
- PyMuPDFPro
- PDF-Pro
- 이파피루스
- 전자문서
- 이벤트
- PDFpro
- 파이썬라이브러리
- 피터펜
- PDF편집
- pdf뷰어
- pdf프로
- 페이퍼리스
- paperless
- 모터센스
- 스마트공장
- 인공지능
- pdf프로그램
- 아티펙스
- djvu
- IOT
- 피터팬
- epapyrus
- PDF변환
- 전자서식
- pdf추출
- 고장예측
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
