티스토리 뷰

안녕하세요, 이파피루스 마케팅입니다.

최근 LLM(거대언어모델)을 활용한 문서 AI 구축이 기업들의 핵심 과제로 떠오르고 있습니다. 하지만 정작 AI가 읽어야 할 문서의 상태가 제각각이라 데이터 추출 단계에서 어려움을 겪는 경우가 많죠.

이파피루스는 이러한 고민을 해결하기 위해, 글로벌 다운로드 1억 2천만 건을 자랑하는 PyMuPDF Pro와 웹 기반 PDF SDK인 MuPDF Web Viewer의 대규모 업데이트를 진행했습니다. "더 빠르게, 더 정확하게, 그리고 더 믿을 수 있게" 변모한 주요 기능을 소개합니다.

하이브리드 OCR : "모든 페이지를 이미지로 변환하던 시대는 끝났습니다"

기존의 OCR 방식은 텍스트가 이미 포함된 디지털 PDF조차 전체를 이미지로 굽고 다시 읽어내는 비효율적인 과정을 거쳤습니다. 이는 속도를 늦출 뿐만 아니라 원본 데이터의 품질을 떨어뜨리기도 합니다.

이번에 업데이트 된 하이브리드 OCR(Hybrid OCR)은 더욱 똑똑해 졌습니다.

  • 스마트 감지: 페이지 분석기가 이미지, 손상된 폰트, 벡터 캐릭터 등 '진짜 OCR이 필요한 영역'만 골라냅니다.
  • 선택적 판독: 읽을 수 있는 텍스트는 그대로 유지하고, 문제가 있는 영역만 OCR 엔진으로 전달합니다.
  • 놀라운 결과: 덕분에 기존 방식보다 처리 속도가 약 50% 향상되었으며, 원본의 레이아웃과 폰트 스타일을 100% 보존하면서도 완벽한 텍스트 추출이 가능해졌습니다.

AI 답변의 근거를 찾아서: AI 출처 확인(AI Citation)

AI가 문서 내용을 요약하거나 질문에 답할 때, 가장 큰 걱정은 바로 '환각(Hallucination)' 현상입니다. "AI가 그렇게 말하긴 하는데, 문서 어디에 그런 내용이 있죠?"라는 질문에 이제는 시각적으로 답할 수 있습니다.

신규 기능인 AI 출처확인은 text.locateSource() API를 통해 혁신적인 경험을 제공합니다.

  • Claim-to-Source: AI 답변의 근거가 되는 원문의 좌표(페이지, 위치)를 정확히 찾아냅니다.
  • 시각적 하이라이트: 답변 내 인용구를 클릭하면 원문 위치로 즉시 스크롤되어 하이라이트 표시됩니다.
  • 신뢰도 극대화: 법률, 금융 문서처럼 정확성이 생명인 업무에서 AI 답변을 일일이 대조할 필요 없이 눈으로 즉시 검증할 수 있습니다.

AI출처확인 기능으로 오른쪽에 질문에 대해 정확하게 답변의 근거 페이지를 표시하고 해당내용을 하일라이팅

문맥을 이해하는 지능형 검색과 추출

MuPDF Web Viewer는 이제 단순한 '뷰어'를 넘어 '문서 지능 솔루션'으로 진화했습니다.

  • 시맨틱 서치(Semantic Search): 키워드가 정확히 일치하지 않아도 문맥과 의미를 파악해 가장 적절한 정보를 찾아줍니다.
  • 스마트 추출 및 문서 이해: 복잡한 표 구조나 비정형 레이아웃에서도 핵심 데이터만 정교하게 뽑아내어 AI 시스템에서 바로 활용할 수 있도록 돕습니다.

마치며: 문서 AI의 새로운 기준

이번 업데이트는 단순히 기능을 추가한 것을 넘어, 기업이 보유한 방대한  문서 자산을 '가장 효율적이고 믿을 수 있는 데이터'로 전환하는 데 초점을 맞췄습니다.

누적 다운로드 5억건 이상의 글로벌 표준 기술력을 바탕으로, 이파피루스는 앞으로도 개발자분들이 더 나은 AI 서비스를 더 쉽게 만들 수 있도록 끊임없이 혁신하겠습니다.

지금 바로 PyMuPDF Pro와 MuPDF Web Viewer의 차이를 경험해 보세요!


[참고 자료]

  • PyMuPDF Pro: 전 세계 개발자가 선택한 Python 기반 데이터 추출 라이브러리
  • MuPDF Web Viewer: 코드 한 줄로 구현하는 고성능 PDF웹 뷰어 SDK