PyMuPDF-Layout은 어떻게 시작되었을까요?*PyMuPDF-Layout은 'PyMuPDF Pro' 패키지에 포함된 표 등 레이아웃 전용 추출 라이브러리입니다. 복잡한 레이아웃 문서를 파싱할때 PyMuPDF Pro와 Layout을 이용하면 더욱 정확한 문서 파싱이 가능합니다.지난해 9월, 유럽과 아시아 각지에서 일하던 ePapyrus와 Artifex 팀원들이 한자리에 모였습니다.( ePapyrus와 Artifex는 전 세계 거의 모든 타임존에 팀원이 있는 회사입니다.)장소는 샌프란시스코 본사에서 북쪽으로 약 70마일 떨어진 작은 해안 도시였습니다.안개가 자욱한 그곳에서, 우리는 일주일 내내 단 하나의 질문만을 놓고 이야기를 나눴습니다.35년 동안 쌓아온 문서 처리 경험, 특히 PDF처럼 구조가 복잡..
AI용 데이터 추출 어떻게 하고 계신가요?문서 포맷마다 다른 파싱 제품을 돌려가며 쓰고 계시진 않으신가요 PDF는 A 솔루션아래한글(HWP,HWPX)은 B 제품Word·Excel은 또 다른 프로그램 제각각 다른 문서 파싱 프로그램으로 추출된 데이터는 페이지 정보, 위치 정보가 일관되게 추출되지 않습니다.막상 추출한 데이터를 AI 서비스에 적용할 때 문제가 발생할 수 밖에 없습니다. AI 기반 문서 검색(Q&A), 요약, 분석 LLM 서비스를 구축해 놓았을 때,문서마다 다른 파서로 데이터를 추출했다면, 질의 응답의 근거가 되는 부분을 찾아내기가 어려워집니다. 추출 된 데이터의 좌표, 구조가 일관되지 않고 파서마다 달라질 확률이 있기 때문입니다.실제 업무에 활용할 수 있는 AI 질의 응답 서비스는“어떤 부..
Google이 최근 Gemini 3.0을 공개하면서 문서 AI 업계가 꽤 들썩이고 있습니다.멀티모달 성능이 좋아졌다는 얘기도 많고, 실제로 문서 처리 회사들 중 일부는 벌써 파싱 작업에 적용해서 필기체 인식이나 읽기 순서 감지 같은 부분의 개선을 확인했다고 합니다.하지만 초기 사용자들은 여전히 해결되지 않은 문제도 발견했습니다.복잡한 레이아웃에서는 성능이 떨어지고, 취소선 같은 텍스트 스타일을 제대로 못 잡는 경우가 많으며, 특정 텍스트 위치를 박스로 표시해 인용하는(bounding-box citation) 기능도 정확하지 않다는 점이죠.사실 이건 그렇게 놀라운 일도 아닙니다.PDF를 다룰 때 비전 기반 시스템은 근본적으로 넘어야 할 벽이 있어요.쉽게 말하면:애초에 문제 자체를 잘못 정의하고 있는 셈입니..
- Total
- Today
- Yesterday
- epapyrus
- 파이썬라이브러리
- Ai
- 문서ai
- 피터펜
- 아티펙스
- PDF편집
- 고장예측
- pdf뷰어
- 전자서식
- pdf프로그램
- pdf프로
- 이벤트
- 피터팬
- PyMuPDFPro
- PDFpro
- PDF변환
- 스마트공장
- 모터센스
- PDF-Pro
- 페이퍼리스
- 인공지능
- pdf추출
- 이파피루스
- djvu
- IOT
- paperless
- 예지보전
- 전자문서
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |