본문 바로가기 메뉴 바로가기

(주)이파피루스 블로그

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

(주)이파피루스 블로그

검색하기 폼
  • 전체보기 (325)
    • 이파피루스 소식 (80)
    • 페이퍼리스 (16)
    • 언론보도 (120)
    • 구축사례 (17)
    • PyMuPDF Pro (21)
    • PDF-Pro (31)
    • LIFE (20)
  • 방명록

전체 글 (325)
PyMuPDF4LLM의 하이브리드 OCR

정확도는 더 높고 속도는 50% 더 빠릅니다. 실제 PDF 환경에 맞춰 설계되었습니다.PyMuPDF4LLM은 PDF 페이지의 전체 텍스트를 추출해야 할 경우에만 OCR을 적용합니다. 페이지에 이미 추출 가능한 텍스트가 충분히 포함되어 있는 경우 OCR은 완전히 건너뛰어 불필요한 작업을 방지하고 고품질 디지털 텍스트의 품질 저하 위험을 제거합니다.OCR이 필요한 경우 , PyMuPDF4LLM은 런타임 환경에서 사용 가능한 OCR 플러그인 중 가장 적합한 것을 자동으로 선택하여 감지 정확도와 처리 속도 사이의 균형을 유지합니다.내장된 OCR 플러그인은 하이브리드 OCR 전략을 구현합니다. 즉, 추출 가능하고 읽을 수 있는 텍스트가 없는 영역만 OCR 엔진으로 전달합니다. 이러한 선택적 접근 방식은 일반적으로..

PyMuPDF Pro 2026. 4. 6. 14:11
C 엔진(C engine)의 유산을 잇고, 파이썬(Python)다운 사용성까지 챙긴 PyMuPDF Pro

PyMuPDF Pro를 조금이라도 써본 개발자라면 한 번쯤 이런 생각을 했을 수 있습니다. “라이브러리 이름은 PyMuPDF Pro인데, 왜 예전에는 import fitz였지?” 이 글은 바로 그 질문에서 출발합니다.fitz는 그냥 예전 이름이 아니었습니다PyMuPDF Pro의 중심에는 MuPDF라는 C 기반 문서 엔진(C-based document engine)이 있습니다. MuPDF는 Artifex가 오래 다듬어 온 엔진으로, PDF 렌더링(PDF rendering), 텍스트 추출(text extraction), 주석 처리(annotation handling) 같은 복잡한 작업을 빠르게 처리하는 걸 강점으로 합니다.여기서 `fitz`는 MuPDF의 초기 내부 프로젝트 코드명인 Fitz에서 나온 이름입..

PyMuPDF Pro 2026. 3. 26. 13:45
왜 데이터 청킹(Data Chunking)이 LLM 처리에서 필수적일까

컨텍스트 윈도우의 한계모든 LLM에는 한 번에 처리할 수 있는 최대 텍스트 길이, 즉 **컨텍스트 윈도우(context window)**가 존재합니다. 최신 모델들은 100,000토큰을 넘는 긴 컨텍스트를 지원하기도 하지만, 문서 전체나 데이터베이스를 그대로 모델에 입력한다고 해서 항상 좋은 결과가 나오지는 않습니다.컨텍스트가 길어질수록 모델이 그 안에서 정말 중요한 정보를 정확히 찾아내는 능력은 오히려 떨어질 수 있습니다.이때 데이터 청킹(chunking)이 큰 역할을 합니다. 콘텐츠를 논리적인 단위로 나누면, 모델은 불필요한 정보 없이 필요한 부분만 전달받을 수 있습니다.검색 정확도 향상RAG(Retrieval-Augmented Generation) 시스템에서는 청킹 방식이 검색 품질에 직접적인 영향..

PyMuPDF Pro 2026. 3. 3. 18:11
PyMuPDF Layout 튜토리얼 — 시작하기

안녕하세요, 이파피루스입니다.이번 포스팅은 PyMuPDF Layout을 사용하는 가장 기초적인 워크플로우를 설명합니다.Python과 커맨드라인 사용 경험, PyPI 패키지 설치 경험이 있으면 쉽게 따라올 수 있어요.1️⃣ 설치하기먼저 필요한 패키지를 설치합니다. 터미널에서 아래 명령어를 실행하세요:pip install pymupdf-layoutpip install pymupdf4llmPyMuPDF Layout은 레이아웃을 감지/분석하는 역할을 하고,PyMuPDF4LLM은 그 결과를 Markdown, JSON, 텍스트 같은 출력 형태로 변환하는 역할을 합니다.2️⃣ PyMuPDF Layout 주요 기능PyMuPDF Layout으로 할 수 있는 일은 크게 두 가지입니다:문서에서 구조화된 데이터(텍스트, 표,..

PyMuPDF Pro 2026. 2. 12. 15:56
이전 1 2 3 4 5 ··· 82 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • 이파피루스 홈페이지
  • 이파피루스 페이스북
  • 이파피루스 채용페이지
TAG
  • 이파피루스
  • PDF편집
  • 문서ai
  • pdf추출
  • pdf뷰어
  • 파이썬라이브러리
  • 피터팬
  • 전자문서
  • PyMuPDFPro
  • 예지보전
  • Ai
  • PDFpro
  • 모터센스
  • pdf프로그램
  • PDF-Pro
  • 전자서식
  • LLM
  • 고장예측
  • pdf프로
  • 인공지능
  • ocr
  • 스마트공장
  • PDF변환
  • PDF
  • paperless
  • 이벤트
  • djvu
  • 페이퍼리스
  • epapyrus
  • 피터펜
more
«   2026/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바