본문 바로가기 메뉴 바로가기

(주)이파피루스 블로그

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

(주)이파피루스 블로그

검색하기 폼
  • 전체보기 (324)
    • 이파피루스 소식 (79)
    • 페이퍼리스 (16)
    • 언론보도 (120)
    • 구축사례 (17)
    • PyMuPDF Pro (21)
    • PDF-Pro (31)
    • LIFE (20)
  • 방명록

전체보기 (324)
PyMuPDF4LLM을 사용하여 멀티모달 LLM 애플리케이션 구축하기

PDF에서 텍스트를 추출하는 것은 많은 AI 및 LLM(대규모 언어 모델) 애플리케이션에서 매우 중요하면서도 종종 어려운 단계입니다. 고품질 텍스트 추출은 토큰화, 임베딩 생성, 벡터 데이터베이스 인덱싱과 같은 후속 프로세스를 개선하여 애플리케이션의 전반적인 성능을 향상시키는 데 중요한 역할을 합니다. PyMuPDF는 간편함, 빠른 속도, 그리고 안정적인 텍스트 추출 품질 덕분에 이 작업에 널리 사용되는 라이브러리입니다.이 블로그에서는 PyMuPDF 개발사인 Artifex에서 최근 출시한 무료 라이브러리인 PyMuPDF4LLM에 대해 살펴보겠습니다 . 이 새로운 라이브러리는 PDF에서 텍스트를 추출하는 과정을 간소화하도록 설계되었으며, 특히 LLM(텍스트 언어 관리) 및 RAG(Retrieval-Augm..

PyMuPDF Pro 2026. 4. 14. 09:50
50% 더 빨라진 OCR과 AI 답변의 '근거'를 찾는 법

안녕하세요, 이파피루스 마케팅입니다.최근 LLM(거대언어모델)을 활용한 문서 AI 구축이 기업들의 핵심 과제로 떠오르고 있습니다. 하지만 정작 AI가 읽어야 할 문서의 상태가 제각각이라 데이터 추출 단계에서 어려움을 겪는 경우가 많죠.이파피루스는 이러한 고민을 해결하기 위해, 글로벌 다운로드 수 누적 5억 8천만 건을 자랑하는 PyMuPDF Pro와 웹 기반 PDF SDK인 MuPDF Web Viewer의 대규모 업데이트를 진행했습니다. "더 빠르게, 더 정확하게, 그리고 더 믿을 수 있게" 변모한 주요 기능을 소개합니다.하이브리드 OCR : "모든 페이지를 이미지로 변환하던 시대는 끝났습니다"기존의 OCR 방식은 텍스트가 이미 포함된 디지털 PDF조차 전체를 이미지로 굽고 다시 읽어내는 비효율적인 과정..

PyMuPDF Pro 2026. 4. 9. 10:43
[현장스케치] "AI에 진심인 편" 사내 AI 해커톤 뒷이야기 🚀

안녕하세요! 이파피루스 마케팅팀입니다. 판교에 벚꽃이 만개하던 지난 4월 4일, 이파피루스 본사에서는 아주 뜨겁고 특별한 이벤트가 열렸습니다. 바로 ‘2026 이파피루스 사내 AI 해커톤 대회’**인데요! 단순히 업무의 연장이 아니라, AI 기술로 일상의 문제를 해결하고 창의적인 아이디어를 자유롭게 펼쳐 보았던 이파피루스인들의 생생한 현장을 공개합니다. --- 💻 "몰입의 즐거움, 아이디어가 현실이 되는 공간" 행사장은 시작 전부터 팽팽한 긴장감과 설렘이 가득했습니다. 이번 해커톤의 주제는 **'AI를 활용한 업무 효율화 및 서비스 혁신'**. 개발자뿐만 아니라 영업, 마케팅, 인사, 재경, 총무 등 다양한 직군의 팀원들이 섞여 머리를 맞대고 아이디어를 짜냈습니다.[현장 사진 팀원들이 회의실에 모여 각..

이파피루스 소식 2026. 4. 7. 13:56
PyMuPDF4LLM의 하이브리드 OCR

정확도는 더 높고 속도는 50% 더 빠릅니다. 실제 PDF 환경에 맞춰 설계되었습니다.PyMuPDF4LLM은 PDF 페이지의 전체 텍스트를 추출해야 할 경우에만 OCR을 적용합니다. 페이지에 이미 추출 가능한 텍스트가 충분히 포함되어 있는 경우 OCR은 완전히 건너뛰어 불필요한 작업을 방지하고 고품질 디지털 텍스트의 품질 저하 위험을 제거합니다.OCR이 필요한 경우 , PyMuPDF4LLM은 런타임 환경에서 사용 가능한 OCR 플러그인 중 가장 적합한 것을 자동으로 선택하여 감지 정확도와 처리 속도 사이의 균형을 유지합니다.내장된 OCR 플러그인은 하이브리드 OCR 전략을 구현합니다. 즉, 추출 가능하고 읽을 수 있는 텍스트가 없는 영역만 OCR 엔진으로 전달합니다. 이러한 선택적 접근 방식은 일반적으로..

PyMuPDF Pro 2026. 4. 6. 14:11
C 엔진(C engine)의 유산을 잇고, 파이썬(Python)다운 사용성까지 챙긴 PyMuPDF Pro

PyMuPDF Pro를 조금이라도 써본 개발자라면 한 번쯤 이런 생각을 했을 수 있습니다. “라이브러리 이름은 PyMuPDF Pro인데, 왜 예전에는 import fitz였지?” 이 글은 바로 그 질문에서 출발합니다.fitz는 그냥 예전 이름이 아니었습니다PyMuPDF Pro의 중심에는 MuPDF라는 C 기반 문서 엔진(C-based document engine)이 있습니다. MuPDF는 Artifex가 오래 다듬어 온 엔진으로, PDF 렌더링(PDF rendering), 텍스트 추출(text extraction), 주석 처리(annotation handling) 같은 복잡한 작업을 빠르게 처리하는 걸 강점으로 합니다.여기서 `fitz`는 MuPDF의 초기 내부 프로젝트 코드명인 Fitz에서 나온 이름입..

PyMuPDF Pro 2026. 3. 26. 13:45
왜 데이터 청킹(Data Chunking)이 LLM 처리에서 필수적일까

컨텍스트 윈도우의 한계모든 LLM에는 한 번에 처리할 수 있는 최대 텍스트 길이, 즉 **컨텍스트 윈도우(context window)**가 존재합니다. 최신 모델들은 100,000토큰을 넘는 긴 컨텍스트를 지원하기도 하지만, 문서 전체나 데이터베이스를 그대로 모델에 입력한다고 해서 항상 좋은 결과가 나오지는 않습니다.컨텍스트가 길어질수록 모델이 그 안에서 정말 중요한 정보를 정확히 찾아내는 능력은 오히려 떨어질 수 있습니다.이때 데이터 청킹(chunking)이 큰 역할을 합니다. 콘텐츠를 논리적인 단위로 나누면, 모델은 불필요한 정보 없이 필요한 부분만 전달받을 수 있습니다.검색 정확도 향상RAG(Retrieval-Augmented Generation) 시스템에서는 청킹 방식이 검색 품질에 직접적인 영향..

PyMuPDF Pro 2026. 3. 3. 18:11
PyMuPDF Layout 튜토리얼 — 시작하기

안녕하세요, 이파피루스입니다.이번 포스팅은 PyMuPDF Layout을 사용하는 가장 기초적인 워크플로우를 설명합니다.Python과 커맨드라인 사용 경험, PyPI 패키지 설치 경험이 있으면 쉽게 따라올 수 있어요.1️⃣ 설치하기먼저 필요한 패키지를 설치합니다. 터미널에서 아래 명령어를 실행하세요:pip install pymupdf-layoutpip install pymupdf4llmPyMuPDF Layout은 레이아웃을 감지/분석하는 역할을 하고,PyMuPDF4LLM은 그 결과를 Markdown, JSON, 텍스트 같은 출력 형태로 변환하는 역할을 합니다.2️⃣ PyMuPDF Layout 주요 기능PyMuPDF Layout으로 할 수 있는 일은 크게 두 가지입니다:문서에서 구조화된 데이터(텍스트, 표,..

PyMuPDF Pro 2026. 2. 12. 15:56
DocLayNet 기반 PyMuPDF-Layout 성능 분석 결과: 경쟁 제품과 비교 리포트로 한눈에 확인하세요.

안녕하세요, 이파피루스입니다.이 포스팅에서는 DocLayNet 데이터셋에서 PyMuPDF-Layout을 Docling과 비교한 벤치마크 결과를 정리한 리포트를 소개해드립니다. IoU 기반 지표로 레이아웃 탐지 정확도를 비교하고, 모델 효율성(파라미터 수, GPU 의존성 등)도 함께 살펴봅니다.실험방법:데이터셋: DocLayNet (Pfitzmann et al., 2022)학습(Training) 세트: 69,000 페이지검증(Validation) 세트: 6,480 페이지문서 카테고리: 재무 보고서, 과학 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서(tender documents)어노테이션 스키마: 11개 클래스 라벨(caption, footnote, formula, list-item, page-foote..

PyMuPDF Pro 2026. 2. 11. 16:53
2026 이파피루스 사업 발표회 현장을 소개합니다✨

안녕하세요, 이파피루스입니다.2026년을 맞아 어김없이! 이파피루스의 모든 임직원분들을 모시고 작년 한 해를 돌아보고 새로운 2026년의 계획을 나누는 이파피루스의 신년회를 진행했는데요,이번 신년회는 더욱 특별히 대표님까지 참석해주셨습니다. 앞으로 한국의 이파피루스와 미국의 아티펙스를 비롯한 전세계의 자회사까지 아우르는 '이파피루스 그룹'의 비전을 발표해주셨습니다! 🙌🙌🙌🙌 또, 작년 한 해 열심히 달려온 임직원분들의 사기 충전을 위한 빵빵한 포상까지! 뜻 깊었던 2026 이파피루스 신년회를 사진과 함께 만나보시죠!오랜만에 모든 부서가 함께 모여 앉아계신 모습✨ 화기애애합니다👍 2025년도 각 부서별 성과를 공유하고 회고하는 시간, 사업발표의 첫 시작은 김정아 부사장님이 열어주셨습니다.작년 한 ..

이파피루스 소식 2026. 2. 11. 14:52
이파피루스, '파이뮤PDF 프로'로 글로벌 영토 확장…금융·회계 '빅네임' 연달아 수주

딜로이트·PwC·KPMG, AI 데이터 활용 인프라로 '파이뮤PDF 프로' 채택골드만삭스·블룸버그·미스트랄AI 등 신규 수주… K-소프트웨어의 압도적 기술력 입증글로벌 문서 인공지능(AI) 그룹 이파피루스(대표 김정희)는 세계 최대 투자은행인 골드만삭스와 자사 핵심 문서 데이터 추출 솔루션 '파이뮤PDF 프로(PyMuPDF Pro)' 공급 계약을 체결했다고 밝혔다. 아울러 블룸버그, 세일즈포스, 미스트랄 AI 등 글로벌 톱티어 기업들을 잇따라 신규 고객사로 확보했다.파이뮤PDF 프로는 AI 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이선 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다.글로벌 회계법인(Big 4)들의 도입세도 눈에 띈다. 딜로이트는 자..

언론보도 2026. 1. 22. 15:31
PyMuPDF-Layout: 문서파싱, GPU없이 10배 빠르게 가능한 이유?

PyMuPDF-Layout은 어떻게 시작되었을까요?*PyMuPDF-Layout은 'PyMuPDF Pro' 패키지에 포함된 표 등 레이아웃 전용 추출 라이브러리입니다. 복잡한 레이아웃 문서를 파싱할때 PyMuPDF Pro와 Layout을 이용하면 더욱 정확한 문서 파싱이 가능합니다.지난해 9월, 유럽과 아시아 각지에서 일하던 ePapyrus와 Artifex 팀원들이 한자리에 모였습니다.( ePapyrus와 Artifex는 전 세계 거의 모든 타임존에 팀원이 있는 회사입니다.)장소는 샌프란시스코 본사에서 북쪽으로 약 70마일 떨어진 작은 해안 도시였습니다.안개가 자욱한 그곳에서, 우리는 일주일 내내 단 하나의 질문만을 놓고 이야기를 나눴습니다.35년 동안 쌓아온 문서 처리 경험, 특히 PDF처럼 구조가 복잡..

PyMuPDF Pro 2025. 12. 12. 10:13
AI용 데이터 추출 어떻게 하고 계신가요? 문서 포맷마다 다른 문서 파서 쓰면 안되는 이유

AI용 데이터 추출 어떻게 하고 계신가요?문서 포맷마다 다른 파싱 제품을 돌려가며 쓰고 계시진 않으신가요 PDF는 A 솔루션아래한글(HWP,HWPX)은 B 제품Word·Excel은 또 다른 프로그램 제각각 다른 문서 파싱 프로그램으로 추출된 데이터는 페이지 정보, 위치 정보가 일관되게 추출되지 않습니다.막상 추출한 데이터를 AI 서비스에 적용할 때 문제가 발생할 수 밖에 없습니다. AI 기반 문서 검색(Q&A), 요약, 분석 LLM 서비스를 구축해 놓았을 때,문서마다 다른 파서로 데이터를 추출했다면, 질의 응답의 근거가 되는 부분을 찾아내기가 어려워집니다. 추출 된 데이터의 좌표, 구조가 일관되지 않고 파서마다 달라질 확률이 있기 때문입니다.실제 업무에 활용할 수 있는 AI 질의 응답 서비스는“어떤 부..

PyMuPDF Pro 2025. 12. 8. 17:03
비전 모델이 따라올 수 없는 문서 이해력: PDF 네이티브 접근 방식의 힘

Google이 최근 Gemini 3.0을 공개하면서 문서 AI 업계가 꽤 들썩이고 있습니다.멀티모달 성능이 좋아졌다는 얘기도 많고, 실제로 문서 처리 회사들 중 일부는 벌써 파싱 작업에 적용해서 필기체 인식이나 읽기 순서 감지 같은 부분의 개선을 확인했다고 합니다.하지만 초기 사용자들은 여전히 해결되지 않은 문제도 발견했습니다.복잡한 레이아웃에서는 성능이 떨어지고, 취소선 같은 텍스트 스타일을 제대로 못 잡는 경우가 많으며, 특정 텍스트 위치를 박스로 표시해 인용하는(bounding-box citation) 기능도 정확하지 않다는 점이죠.사실 이건 그렇게 놀라운 일도 아닙니다.PDF를 다룰 때 비전 기반 시스템은 근본적으로 넘어야 할 벽이 있어요.쉽게 말하면:애초에 문제 자체를 잘못 정의하고 있는 셈입니..

PyMuPDF Pro 2025. 12. 5. 16:44
68만 IT 크리에이터 조코딩이 소개하는 PyMuPDF Pro! 궁금하신가요?

AI 개발자들의 필수 PDF 도구, PyMuPDF Pro가 68만 구독자를 보유한 IT 유튜버 조코딩의 AI 뉴스 콘텐츠에 소개되었습니다!조코딩은 영상에서 “AI 연동의 핵심 도구”로 PyMuPDF Pro를 소개하며, PDF에서 직접 데이터를 추출하고 활용하는 방법도 시연했습니다 🫡PyMuPDF Pro의 어떤내용이 소개되었는지 간단하게 알려드릴게요 PyMuPDF Pro의 탁월한 표(레이아웃) 속 데이터 추출 기능을 중점적으로 설명해주었네요!누구나 이해하기 쉽게 예시와 함께 잘 소개되었습니다✨표추출 기능뿐 아니라 개인정보 보호에 꼭 필요한 비식별화, 왜 PyMuPDF PRo가 AI연동에 좋은 제품인지 그 이유까지! 다각도로 소개하고 있으니, 전체 내용이 궁금하신분께서는 조코딩의 소개영상, 놓치지마시고 ..

이파피루스 소식 2025. 11. 11. 15:04
PyMuPDF Pro 설치 가이드

안녕하세요, 이파피루스입니다.PyMuPDF Pro를 처음 사용하시나요?이 포스팅에서는 PyMuPDF Pro를 설치하는 방법을 안내드립니다. 간단하게 설치하고, 자유롭게 PyMuPDF Pro를 활용해보세요! PyMuPDF Pro 설치 안내 PyMuPDF Pro는 서버/로컬 환경 모두에서 Python 패키지 형태로 사용할 수 있습니다.1. Python 환경(3.10 이상)에서 아래 명령을 실행해 주세요.pip install pymupdfpro 2. 설치 후 아래 코드를 실행하여 라이선스를 활성화할 수 있습니다.import pymupdf.propymupdf.pro.unlock("여기에_라이선스_코드_입력") 투스텝으로 설치를 마쳤습니다. 놀랍도록 간단하죠!이제, PyMuPDF Pro로 손쉽게 데이터 추출이..

PyMuPDF Pro 2025. 11. 11. 13:51
[IT 기업 AX 전략·솔루션/ 기업용 SW ⑬] 이파피루스

“20년 축적된 PDF 기술과 AI 기반 문서 솔루션으로 글로벌 SaaS 기업 도약”20년 업력의 문서 처리 전문가, AI 기반 솔루션으로 혁신 주도이파피루스는 2004년에 설립된 문서 처리 전문 기업으로, 전 세계 70여 개국 2천여 고객사에 PDF 및 AI 기반 문서 솔루션을 공급하고 있다. 본사는 판교에 위치하고 있으며, 실리콘밸리에 위치한 자회사 아티펙스(Artifex)와 함께 글로벌 시장을 대상으로 고성능 PDF 엔진과 AI 문서 인식 기술을 개발 중이다.이파피루스는 20년간 축적해 온 PDF 기술력과 최신 AI 기반 문서 분석 기술을 결합해 기업의 문서 데이터 활용 효율을 극대화하는 다양한 솔루션을 제공하고 있다. AI는 문서 중심 산업의 핵심 인프라로, 수많은 문서 속에 기업 의사결정에 필요..

언론보도 2025. 11. 6. 13:31
[런칭] 문서 데이터 추출, GPU 없이도 가능하다고? PDF의 DNA를 해석하는 'PyMuPDF-Layout'

시작지난 9월, 유럽과 아시아에서 온 동료들이 샌프란시스코 본사에서 북쪽으로 110km 떨어진 작은 해안 마을에 모였습니다. 이파피루스와 이파피루스의 미국 자회사 Artifex 팀원들은 거의 모든 시간대에 흩어져 일하고 있거든요. 안개가 밀려오는 가운데, 우리는 일주일 내내 단 하나의 주제만 논의했습니다: 35년간 쌓아온 문서 처리 지식, 특히 PDF 같은 비정형 포맷 전문성을 최첨단 AI와 어떻게 결합해서 최고의 데이터 파싱 솔루션을 만들 수 있을까?이파피루스와 Artifex는 이미 PyMuPDF 제품군으로 인기 있는 파싱 솔루션을 제공하고 있습니다. 마크다운 출력에 특화된 PyMuPDF4LLM도 포함해서요. Notion, DocuSign, Oracle 같은 주요 고객들이 우리 솔루션을 쓰고 있지만, ..

이파피루스 소식 2025. 10. 28. 16:22
이파피루스, 첨부문서 통합뷰어 '스트림닥스 뷰!'에 ZIP 파일 바로보기 기능 추가

압축파일 내 문서 여러 개를 하나의 문서처럼 이어서 보여줘전자결재 문서 바로보기 지원·웹 접근성 표준 준수 등 공공기관 누리집에 최적문서 AI 전문 기업 이파피루스(대표 김정희)는 첨부문서 통합뷰어 '스트림닥스 뷰!(StreamDocs Vu!)'에 대표 압축파일 포맷인 ZIP 파일 바로보기 기능이 추가되었다고 25일 밝혔다.이를 통해 PDF, 이미지 파일, 한글 및 MS오피스 문서 등 '스트림닥스 뷰!'가 지원하는 모든 포맷 문서를 압축 파일 상태로 웹에서 바로 볼 수 있게 됐다. 하나의 압축 파일에 포함된 문서들은 원본 포맷에 상관 없이 하나의 문서처럼 이어서 볼 수 있어 더욱 편리하다. 여기에 공공기관 및 기업에서 자주 사용하는 전자결재 문서 포맷인 HWX 파일 바로보기 기능도 추가되어 기관 내 결재..

언론보도 2025. 9. 25. 14:22
이파피루스 홈페이지 리뉴얼 오픈!🎉

새롭게 단장한 ePapyrus🏡,어떻게 바뀌었을까요? 💡한눈에 보는 제품, 솔루션💡원하는 기능에 딱 맞는 제품을 쉽고 빠르게 찾을 수 있습니다.▲ 제품으로 찾기 ▲ 기능으로 찾기 💡풍부한 도입사례💡제품별, 산업별 레퍼런스를 바로 확인할 수 있습니다. ✨ 지금, 이 순간! ePapyrus 홈페이지에서 가장 핫한 제품은? 포털 / 모바일 / 홈페이지에서 다양한 첨부 문서를 다운로드 없이바로 보여주는 통합뷰어 --> ..

이파피루스 소식 2025. 9. 9. 14:04
PyMuPDF Pro로 PDF에서 텍스트 검색·치환하기: 샘플 코드 포함

PDF 텍스트 검색 및 치환: PyMuPDF Pro로 간단하게 해결하기PDF 편집은 오래전부터 개발자들에게 까다로운 작업이었지만, PyMuPDF Pro를 사용하면 훨씬 간단하게 처리할 수 있습니다.회사 이름을 업데이트하거나, 오타를 수정하거나, 여러 문서에 걸쳐 오래된 정보를 교체해야 할 때 PyMuPDF Pro는 강력한 검색 및 치환 기능을 제공합니다.PyMuPDF Pro란?PyMuPDF Pro는 MuPDF의 파이썬 바인딩으로, 가볍고 빠른 PDF 툴킷입니다.속도가 빠르고 메모리 효율이 뛰어나며, 텍스트 추출·렌더링·수정까지 다양한 기능을 제공합니다.특히 일부 라이브러리처럼 새 문서를 생성하지 않고, 기존 PDF의 구조와 포맷을 유지한 채 직접 수정할 수 있다는 장점이 있습니다.설치아래와 같이 pip으..

PyMuPDF Pro 2025. 8. 22. 11:45
이전 1 2 3 4 ··· 17 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • 이파피루스 홈페이지
  • 이파피루스 페이스북
  • 이파피루스 채용페이지
TAG
  • 페이퍼리스
  • PDF변환
  • 피터팬
  • 이벤트
  • 이파피루스
  • pdf프로
  • 전자문서
  • PDF-Pro
  • pdf뷰어
  • 고장예측
  • epapyrus
  • 인공지능
  • 파이썬라이브러리
  • 아티펙스
  • PDF
  • djvu
  • 예지보전
  • Ai
  • paperless
  • 피터펜
  • PDFpro
  • pdf프로그램
  • 전자서식
  • 스마트공장
  • PyMuPDFPro
  • ocr
  • pdf추출
  • 모터센스
  • PDF편집
  • 문서ai
more
«   2026/05   »
일 월 화 수 목 금 토
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바