AI용 데이터 추출 어떻게 하고 계신가요?문서 포맷마다 다른 파싱 제품을 돌려가며 쓰고 계시진 않으신가요 PDF는 A 솔루션아래한글(HWP,HWPX)은 B 제품Word·Excel은 또 다른 프로그램 제각각 다른 문서 파싱 프로그램으로 추출된 데이터는 페이지 정보, 위치 정보가 일관되게 추출되지 않습니다.막상 추출한 데이터를 AI 서비스에 적용할 때 문제가 발생할 수 밖에 없습니다. AI 기반 문서 검색(Q&A), 요약, 분석 LLM 서비스를 구축해 놓았을 때,문서마다 다른 파서로 데이터를 추출했다면, 질의 응답의 근거가 되는 부분을 찾아내기가 어려워집니다. 추출 된 데이터의 좌표, 구조가 일관되지 않고 파서마다 달라질 확률이 있기 때문입니다.실제 업무에 활용할 수 있는 AI 질의 응답 서비스는“어떤 부..
Google이 최근 Gemini 3.0을 공개하면서 문서 AI 업계가 꽤 들썩이고 있습니다.멀티모달 성능이 좋아졌다는 얘기도 많고, 실제로 문서 처리 회사들 중 일부는 벌써 파싱 작업에 적용해서 필기체 인식이나 읽기 순서 감지 같은 부분의 개선을 확인했다고 합니다.하지만 초기 사용자들은 여전히 해결되지 않은 문제도 발견했습니다.복잡한 레이아웃에서는 성능이 떨어지고, 취소선 같은 텍스트 스타일을 제대로 못 잡는 경우가 많으며, 특정 텍스트 위치를 박스로 표시해 인용하는(bounding-box citation) 기능도 정확하지 않다는 점이죠.사실 이건 그렇게 놀라운 일도 아닙니다.PDF를 다룰 때 비전 기반 시스템은 근본적으로 넘어야 할 벽이 있어요.쉽게 말하면:애초에 문제 자체를 잘못 정의하고 있는 셈입니..
이 포스팅에서는 PyMuPDF-Layout이 DocLayNet 데이터셋에서 어느 정도 성능을 보여주는지, 그리고 Docling과 비교했을 때 어떤 특징을 가지는지를 정리했습니다.레이아웃 감지는 IoU 기반 정확도로 평가했고, 모델 효율성도 함께 비교했습니다.🔍 Methodology — 어떻게 평가했을까?Dataset: DocLayNet (Pfitzmann et al., 2022)우리가 사용한 데이터는 DocLayNet이라는 대규모 문서 레이아웃 데이터셋입니다.훈련 데이터: 69,000 페이지검증 데이터: 6,480 페이지문서 종류: 재무 보고서, 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서 등레이블 종류: 총 11개caption, footnote, formula, list-item, page-foot..
이 블로그 포스트에서는 PyMuPDF Pro에 포함되어 있는 PyMuPDF Layout을 어떻게 시작하는지와, 무엇을 할 수 있는지 단계별로 설명합니다.Python과 명령줄(Command Line)에 대한 기본 지식, 그리고 PyPI(Python Package Index)에서 패키지를 설치해본 경험이 필요합니다.PyMuPDF Layout 설치하기먼저 PyPI에서 필요한 PyMuPDF Pro패키지를 설치해야 합니다.명령줄 또는 터미널을 열고 다음을 실행하세요:pip install pymupdf-layoutpip install pymupdf4llm요약하자면, PyMuPDF Layout은 추출해야 할 문서 레이아웃을 감지하는 역할,그리고 PyMuPDF4LLM은 결과물을 Markdown/JSON/텍스트로 출력하..
AI 개발자들의 필수 PDF 도구, PyMuPDF Pro가 68만 구독자를 보유한 IT 유튜버 조코딩의 AI 뉴스 콘텐츠에 소개되었습니다!조코딩은 영상에서 “AI 연동의 핵심 도구”로 PyMuPDF Pro를 소개하며, PDF에서 직접 데이터를 추출하고 활용하는 방법도 시연했습니다 🫡PyMuPDF Pro의 어떤내용이 소개되었는지 간단하게 알려드릴게요 PyMuPDF Pro의 탁월한 표(레이아웃) 속 데이터 추출 기능을 중점적으로 설명해주었네요!누구나 이해하기 쉽게 예시와 함께 잘 소개되었습니다✨표추출 기능뿐 아니라 개인정보 보호에 꼭 필요한 비식별화, 왜 PyMuPDF PRo가 AI연동에 좋은 제품인지 그 이유까지! 다각도로 소개하고 있으니, 전체 내용이 궁금하신분께서는 조코딩의 소개영상, 놓치지마시고 ..
안녕하세요, 이파피루스입니다.PyMuPDF Pro를 처음 사용하시나요?이 포스팅에서는 PyMuPDF Pro를 설치하는 방법을 안내드립니다. 간단하게 설치하고, 자유롭게 PyMuPDF Pro를 활용해보세요! PyMuPDF Pro 설치 안내 PyMuPDF Pro는 서버/로컬 환경 모두에서 Python 패키지 형태로 사용할 수 있습니다.1. Python 환경(3.10 이상)에서 아래 명령을 실행해 주세요.pip install pymupdfpro 2. 설치 후 아래 코드를 실행하여 라이선스를 활성화할 수 있습니다.import pymupdf.propymupdf.pro.unlock("여기에_라이선스_코드_입력") 투스텝으로 설치를 마쳤습니다. 놀랍도록 간단하죠!이제, PyMuPDF Pro로 손쉽게 데이터 추출이..
“20년 축적된 PDF 기술과 AI 기반 문서 솔루션으로 글로벌 SaaS 기업 도약”20년 업력의 문서 처리 전문가, AI 기반 솔루션으로 혁신 주도이파피루스는 2004년에 설립된 문서 처리 전문 기업으로, 전 세계 70여 개국 2천여 고객사에 PDF 및 AI 기반 문서 솔루션을 공급하고 있다. 본사는 판교에 위치하고 있으며, 실리콘밸리에 위치한 자회사 아티펙스(Artifex)와 함께 글로벌 시장을 대상으로 고성능 PDF 엔진과 AI 문서 인식 기술을 개발 중이다.이파피루스는 20년간 축적해 온 PDF 기술력과 최신 AI 기반 문서 분석 기술을 결합해 기업의 문서 데이터 활용 효율을 극대화하는 다양한 솔루션을 제공하고 있다. AI는 문서 중심 산업의 핵심 인프라로, 수많은 문서 속에 기업 의사결정에 필요..
시작지난 9월, 유럽과 아시아에서 온 동료들이 샌프란시스코 본사에서 북쪽으로 110km 떨어진 작은 해안 마을에 모였습니다. 이파피루스와 이파피루스의 미국 자회사 Artifex 팀원들은 거의 모든 시간대에 흩어져 일하고 있거든요. 안개가 밀려오는 가운데, 우리는 일주일 내내 단 하나의 주제만 논의했습니다: 35년간 쌓아온 문서 처리 지식, 특히 PDF 같은 비정형 포맷 전문성을 최첨단 AI와 어떻게 결합해서 최고의 데이터 파싱 솔루션을 만들 수 있을까?이파피루스와 Artifex는 이미 PyMuPDF 제품군으로 인기 있는 파싱 솔루션을 제공하고 있습니다. 마크다운 출력에 특화된 PyMuPDF4LLM도 포함해서요. Notion, DocuSign, Oracle 같은 주요 고객들이 우리 솔루션을 쓰고 있지만, ..
압축파일 내 문서 여러 개를 하나의 문서처럼 이어서 보여줘전자결재 문서 바로보기 지원·웹 접근성 표준 준수 등 공공기관 누리집에 최적문서 AI 전문 기업 이파피루스(대표 김정희)는 첨부문서 통합뷰어 '스트림닥스 뷰!(StreamDocs Vu!)'에 대표 압축파일 포맷인 ZIP 파일 바로보기 기능이 추가되었다고 25일 밝혔다.이를 통해 PDF, 이미지 파일, 한글 및 MS오피스 문서 등 '스트림닥스 뷰!'가 지원하는 모든 포맷 문서를 압축 파일 상태로 웹에서 바로 볼 수 있게 됐다. 하나의 압축 파일에 포함된 문서들은 원본 포맷에 상관 없이 하나의 문서처럼 이어서 볼 수 있어 더욱 편리하다. 여기에 공공기관 및 기업에서 자주 사용하는 전자결재 문서 포맷인 HWX 파일 바로보기 기능도 추가되어 기관 내 결재..
PDF 텍스트 검색 및 치환: PyMuPDF Pro로 간단하게 해결하기PDF 편집은 오래전부터 개발자들에게 까다로운 작업이었지만, PyMuPDF Pro를 사용하면 훨씬 간단하게 처리할 수 있습니다.회사 이름을 업데이트하거나, 오타를 수정하거나, 여러 문서에 걸쳐 오래된 정보를 교체해야 할 때 PyMuPDF Pro는 강력한 검색 및 치환 기능을 제공합니다.PyMuPDF Pro란?PyMuPDF Pro는 MuPDF의 파이썬 바인딩으로, 가볍고 빠른 PDF 툴킷입니다.속도가 빠르고 메모리 효율이 뛰어나며, 텍스트 추출·렌더링·수정까지 다양한 기능을 제공합니다.특히 일부 라이브러리처럼 새 문서를 생성하지 않고, 기존 PDF의 구조와 포맷을 유지한 채 직접 수정할 수 있다는 장점이 있습니다.설치아래와 같이 pip으..
PyMuPDF Pro로 PDF를 이미지로 변환하기: 완벽 가이드PDF는 어디서나 쓰이지만, 프레젠테이션이나 웹에 올리거나 추가 가공을 위해 이미지로 변환해야 할 때가 있습니다.PyMuPDF Pro는 이 과정을 빠르고 효율적으로 처리할 수 있는 파워풀한 파이썬 라이브러리입니다.PyMuPDF Pro란?PyMuPDF Pro는 MuPDF의 파이썬 바인딩으로, 가볍고 빠르며 메모리 효율성이 뛰어난 PDF/XPS 처리 도구입니다.폰트, 이미지, 벡터 그래픽이 복잡하게 섞인 PDF도 고품질로 다룰 수 있다는 점이 강점입니다.설치 방법설치는 간단합니다. pip으로 바로 설치할 수 있습니다.pip install PyMuPDF추가적인 이미지 형식을 다루려면 Pillow 라이브러리 설치도 권장됩니다.pip install P..
코드 한 줄만 삽입하면 웹에서 PDF 열람 및 편집 가능한 SDK '뮤PDF 웹뷰어' 구독챗GPT 이어 두 번째 초대형 글로벌 AI 기업 고객…AI 서비스 필수 요소로 각광문서 AI 기업 이파피루스(대표 김정희)는 최근 AI 기반 대화형 검색 엔진 퍼플렉시티가 자사의 문서 뷰어 개발 키트(SDK)인 '뮤피디에프 웹뷰어'의 첫 구독 고객이 됐다고 13일 밝혔다.'뮤피디에프 웹뷰어'는 이파피루스의 대표 제품인 PDF 스트리밍 뷰어 '스트림닥스(StreamDocs)'를 기반으로 한 뷰어 SDK다. 코드 한 줄만 입력하면 별도의 서버 구축 없이도 브라우저 내에서 작동하는 PDF 뷰어를 구현할 수 있다. 문서 열람은 물론 강조 표시, 주석 달기, 양식 작성, 서명, 콘텐츠 삭제 등의 편집 작업도 가능하다. 올해 ..
문서 AI 기업 이파피루스(대표 김정희)는 최근 자사 제품 관련 정보를 빠르게 찾아볼 수 있는 AI 챗봇을 개발, 7월 중 고객 및 파트너사에 제공할 예정이라고 23일 밝혔다.이번에 개발한 AI 챗봇은 이파피루스가 현재 개발·판매 중인 문서 AI 솔루션에 대한 정보를 총망라한 sLLM(소형 언어모델)을 기반으로 한다. 제품 정보부터 자주 묻는 질문(FAQ), 개발 문서에 이르기까지 다양하고 복잡한 정보 중 필요한 내용만 질의응답 형태로 빠르게 찾아볼 수 있다. 이파피루스 내부 업무에 먼저 적용하여 테스트를 거친 후, 파트너사와 고객들을 위한 개발 문서 포털 '테크넷(Tech Net)'에 이달 중 적용될 예정이다.김정아 이파피루스 부사장은 “고객과 파트너사의 기술 관련 문의에 보다 신속 정확하게 대응하기 ..
문서 AI 기업 이파피루스(대표 김정희)는 민감정보 비식별화 모듈 '블랙마커(BlackMarker)'의 성능을 업그레이드, 대표 제품인 PDF 스트리밍 뷰어 '스트림닥스(StreamDocs)'와 PDF 변환 솔루션 '피디에프 게이트웨이(PDF Gateway)'의 부가기능으로 제공한다고 18일 밝혔다.이파피루스 자체 개발 모듈인 '블랙마커'는 PDF 문서에 포함된 민감정보를 찾아내고 마스킹(Masking) 처리한 후, 원본 데이터를 삭제하여 정보 유출 위험을 원천 차단한다. 이번 업그레이드를 통해 기존의 전화번호, 주민등록번호, 이메일과 같이 일정한 형식을 갖춘 정형화된 데이터는 물론, 인명이나 주소와 같은 비정형 개인정보도 자동으로 감지하여 일괄 비식별 처리할 수 있게 됐다.이러한 성능 향상의 비결은 방..
📌 PyMuPDF Pro로 PDF 병합하기: 기본부터 고급 기능까지PDF 병합은 보고서 통합, 연구 자료 합본, 문서 묶음 제작 등 다양한 작업에서 자주 필요한 기능입니다. PyMuPDF Pro는 빠르고 가벼우면서도 세밀한 제어가 가능해, 간단한 결합부터 페이지 범위 지정, 메타데이터 추가까지 모두 처리할 수 있습니다.이 가이드에서는 PyMuPDF Pro로 PDF를 병합하는 방법을 다룹니다.기본 병합 (Concatenation)페이지 범위를 지정한 병합북마크와 메타데이터 유지 등 고급 병합1. 기본 PDF 병합가장 단순한 방법은 여러 PDF를 순서대로 합치는 것입니다.12345678910111213141516171819202122232425262728293031import pymupdf def merg..
PDF 분할과 PyMuPDF Pro문서 처리 업무에서 PDF 파일을 다루는 일은 매우 흔한데요,그중에서도 여러 페이지로 구성된 PDF를 페이지별 개별 파일로 나누는 작업은 특히 자주 하게됩니다.PyMuPDF Pro는 이러한 작업을 쉽고 빠르게 처리할 수 있는 강력한 파이썬 라이브러리입니다.PyMuPDF Pro란?PyMuPDF Pro는 MuPDF라는 경량 PDF 엔진을 파이썬에서 사용할 수 있도록 만든 라이브러리입니다.PDF 문서를 읽기, 작성, 편집, 가공하는 다양한 기능을 제공하며, 속도와 안정성이 뛰어나 PDF 작업에 널리 사용됩니다.설치 방법PyMuPDF Pro는 pip 명령어로 간단히 설치할 수 있습니다.pip install PyMuPDF💡기본 PDF 분할아래는 하나의 PDF 파일을 페이지별로..
'주석(Annotation)' 왜 중요한가요?주석과 하이라이트 기능은 현대적인 문서 작업 흐름에서 필수적인 도구가 되었습니다.학계, 법률 문서, 협업 기반의 문서 검토 등 다양한 분야에서 마크업 도구는 피드백을 구조화하고, 문서의 가독성을 높이는 데 중요한 역할을 합니다.주석은 단순한 표시 그 이상입니다. PDF에 주석을 추가한다는 것은 단순한 밑줄이나 강조 표시를 넘어,디지털 텍스트와의 정밀한 상호작용을 가능하게 합니다. 법률 전문가의 경우 계약서에서 특정 조항을 강조하고, 삭제선을 넣거나 맥락별 의견을 남깁니다. 연구자는 논문 초안을 공동으로 검토하며 중요한 내용을 표시합니다. 학생의 경우 학습 자료에 동적으로 참여하면서 하이라이트와 메모를 추가하는 등 다양하게 활용될 수 있습니다.✨ 대표적인 활용 ..
✅ 업무 흐름을 방해하는 무거운 PDF, PyMuPDF Pro로 가볍게 최적화하세요 고해상도 이미지, 삽입된 폰트, 숨겨진 메타데이터 등으로 인해 PDF 파일이 과도하게 커지면 이메일 첨부 전송이 느려지고, 저장 공간을 낭비하며, 모바일 사용자에게 불편을 주는 등 업무 흐름 전체에 영향을 미칠 수 있습니다. 이럴 때는 명확한 목표를 가진 최적화 전략이 필요합니다.이 글에서는 다음의 세 가지 핵심 기법을 중심으로, PyMuPDF Pro를 활용해 과도하게 커진 PDF를 더 작고 빠르게 만드는 방법을 소개합니다:메타데이터 및 불필요한 요소 제거이미지 압축폰트 서브세팅(Font Subsetting)PyMuPDF Pro는 직관적인 API를 제공하여,복잡한 PDF 최적화 작업도 간단한 코드 몇 줄로 처리할 수 있습..
📄 PDF 워터마킹 완전 가이드: PyMuPDF Pro로 구현하는 텍스트/이미지 워터마크워터마킹이 중요한 이유PDF 워터마킹은 지적 재산권 보호, 브랜딩, 문서 보안 유지를 위해 필수적인 기술입니다.기밀 비즈니스 문서에 'CONFIDENTIAL' 표시를 하거나, 보고서에 회사 로고를 삽입하거나, 창작물을 보호하기 위해 워터마크를 추가하는 경우 등 워터마크는 문서 보안에 빼놓을 수 없는 전문적이고 효과적인 수단입니다.🐍 PyMuPDF Pro: 빠르고 강력한 PDF 워터마킹 도구기능이 제한적인 다른 라이브러리 제품과 달리, PyMuPDF Pro는 다음과 같은 장점을 제공합니다:빠른 처리 속도텍스트 및 이미지 워터마크 모두 지원광범위한 사용자 정의 옵션대량 처리(batch processing)까지 지원⚙️..
- Total
- Today
- Yesterday
- 전자서식
- epapyrus
- 이벤트
- PDF편집
- pdf프로
- paperless
- 아티펙스
- 페이퍼리스
- 스마트공장
- Ai
- 이파피루스
- 인공지능
- PDFpro
- 피터팬
- PDF-Pro
- pdf추출
- 모터센스
- djvu
- 피터펜
- 전자문서
- pdf뷰어
- pdf프로그램
- IOT
- PyMuPDFPro
- PDF변환
- 파이썬라이브러리
- 예지보전
- 고장예측
- 문서ai
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
