본문 바로가기 메뉴 바로가기

(주)이파피루스 블로그

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

(주)이파피루스 블로그

검색하기 폼
  • 전체보기 (315) N
    • 이파피루스 소식 (77)
    • 페이퍼리스 (16)
    • 언론보도 (119)
    • 구축사례 (17)
    • PyMuPDF Pro (15) N
    • PDF-Pro (31)
    • LIFE (20)
  • 방명록

전체 글 (315)
AI용 데이터 추출 어떻게 하고 계신가요? 문서 포맷마다 다른 문서 파서 쓰면 안되는 이유

AI용 데이터 추출 어떻게 하고 계신가요?문서 포맷마다 다른 파싱 제품을 돌려가며 쓰고 계시진 않으신가요 PDF는 A 솔루션아래한글(HWP,HWPX)은 B 제품Word·Excel은 또 다른 프로그램 제각각 다른 문서 파싱 프로그램으로 추출된 데이터는 페이지 정보, 위치 정보가 일관되게 추출되지 않습니다.막상 추출한 데이터를 AI 서비스에 적용할 때 문제가 발생할 수 밖에 없습니다. AI 기반 문서 검색(Q&A), 요약, 분석 LLM 서비스를 구축해 놓았을 때,문서마다 다른 파서로 데이터를 추출했다면, 질의 응답의 근거가 되는 부분을 찾아내기가 어려워집니다. 추출 된 데이터의 좌표, 구조가 일관되지 않고 파서마다 달라질 확률이 있기 때문입니다.실제 업무에 활용할 수 있는 AI 질의 응답 서비스는“어떤 부..

PyMuPDF Pro 2025. 12. 8. 17:03
비전 모델이 따라올 수 없는 문서 이해력: PDF 네이티브 접근 방식의 힘

Google이 최근 Gemini 3.0을 공개하면서 문서 AI 업계가 꽤 들썩이고 있습니다.멀티모달 성능이 좋아졌다는 얘기도 많고, 실제로 문서 처리 회사들 중 일부는 벌써 파싱 작업에 적용해서 필기체 인식이나 읽기 순서 감지 같은 부분의 개선을 확인했다고 합니다.하지만 초기 사용자들은 여전히 해결되지 않은 문제도 발견했습니다.복잡한 레이아웃에서는 성능이 떨어지고, 취소선 같은 텍스트 스타일을 제대로 못 잡는 경우가 많으며, 특정 텍스트 위치를 박스로 표시해 인용하는(bounding-box citation) 기능도 정확하지 않다는 점이죠.사실 이건 그렇게 놀라운 일도 아닙니다.PDF를 다룰 때 비전 기반 시스템은 근본적으로 넘어야 할 벽이 있어요.쉽게 말하면:애초에 문제 자체를 잘못 정의하고 있는 셈입니..

PyMuPDF Pro 2025. 12. 5. 16:44
Docling vs PyMuPDF-Layout의 성능 비교 결과!

이 포스팅에서는 PyMuPDF-Layout이 DocLayNet 데이터셋에서 어느 정도 성능을 보여주는지, 그리고 Docling과 비교했을 때 어떤 특징을 가지는지를 정리했습니다.레이아웃 감지는 IoU 기반 정확도로 평가했고, 모델 효율성도 함께 비교했습니다.🔍 Methodology — 어떻게 평가했을까?Dataset: DocLayNet (Pfitzmann et al., 2022)우리가 사용한 데이터는 DocLayNet이라는 대규모 문서 레이아웃 데이터셋입니다.훈련 데이터: 69,000 페이지검증 데이터: 6,480 페이지문서 종류: 재무 보고서, 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서 등레이블 종류: 총 11개caption, footnote, formula, list-item, page-foot..

PyMuPDF Pro 2025. 12. 4. 17:58
'PyMuPDF Pro' PyMuPDF Layout 시작하기!

이 블로그 포스트에서는 PyMuPDF Pro에 포함되어 있는 PyMuPDF Layout을 어떻게 시작하는지와, 무엇을 할 수 있는지 단계별로 설명합니다.Python과 명령줄(Command Line)에 대한 기본 지식, 그리고 PyPI(Python Package Index)에서 패키지를 설치해본 경험이 필요합니다.PyMuPDF Layout 설치하기먼저 PyPI에서 필요한 PyMuPDF Pro패키지를 설치해야 합니다.명령줄 또는 터미널을 열고 다음을 실행하세요:pip install pymupdf-layoutpip install pymupdf4llm요약하자면, PyMuPDF Layout은 추출해야 할 문서 레이아웃을 감지하는 역할,그리고 PyMuPDF4LLM은 결과물을 Markdown/JSON/텍스트로 출력하..

PyMuPDF Pro 2025. 12. 4. 17:06
이전 1 2 3 4 ··· 79 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • 이파피루스 홈페이지
  • 이파피루스 페이스북
  • 이파피루스 채용페이지
TAG
  • Ai
  • 예지보전
  • 문서ai
  • PyMuPDFPro
  • PDF-Pro
  • 이파피루스
  • 전자문서
  • 이벤트
  • PDFpro
  • 파이썬라이브러리
  • 피터펜
  • PDF편집
  • pdf뷰어
  • pdf프로
  • 페이퍼리스
  • paperless
  • PDF
  • 모터센스
  • 스마트공장
  • 인공지능
  • pdf프로그램
  • 아티펙스
  • djvu
  • IOT
  • 피터팬
  • epapyrus
  • PDF변환
  • 전자서식
  • pdf추출
  • 고장예측
more
«   2025/12   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바