'ocr' 태그의 글 목록

PyMuPDF로 구축하는 가성비 문서 분류(Triage) 파이프라인

ePapyrus는 법률, 금융, 의료, 공공, 물류 등 다양한 산업 군에서 연간 수백만 건의 문서를 처리하는 고객들과 함께 일하고 있습니다. 그런데 여러분, 이 정도 대규모 스케일의 조직에서 모든 페이지를 아무 생각 없이 OCR 엔진이나 LLM(대형 언어 모델)으로 그냥 밀어 넣으면 어떻게 될까요? 당연히 시간과 비용 면에서 비효율적일 수밖에 없습니다.그렇기 때문에 문서를 먼저 영리하게 분류하고 걸러내는 '사전 필터링' 작업이 반드시 필요합니다."이 페이지는 스캔한 이미지일까, 아니면 디지털 텍스트일까?""단순 서식 양식일까, 표가 빽빽한 보고서일까, 아니면 그냥 평범한 줄글일까?""애초에 비용을 써가며 처리할 만한 가치가 있는 페이지인가?""이 페이지에서 콘텐츠를 가장 효율적으로 뽑아내는 방법은 뭘까?..

PyMuPDF Pro 2026. 6. 18. 14:53

PyMuPDF4LLM의 하이브리드 OCR

정확도는 더 높고 속도는 50% 더 빠릅니다. 실제 PDF 환경에 맞춰 설계되었습니다.PyMuPDF4LLM은 PDF 페이지의 전체 텍스트를 추출해야 할 경우에만 OCR을 적용합니다. 페이지에 이미 추출 가능한 텍스트가 충분히 포함되어 있는 경우 OCR은 완전히 건너뛰어 불필요한 작업을 방지하고 고품질 디지털 텍스트의 품질 저하 위험을 제거합니다.OCR이 필요한 경우 , PyMuPDF4LLM은 런타임 환경에서 사용 가능한 OCR 플러그인 중 가장 적합한 것을 자동으로 선택하여 감지 정확도와 처리 속도 사이의 균형을 유지합니다.내장된 OCR 플러그인은 하이브리드 OCR 전략을 구현합니다. 즉, 추출 가능하고 읽을 수 있는 텍스트가 없는 영역만 OCR 엔진으로 전달합니다. 이러한 선택적 접근 방식은 일반적으로..

PyMuPDF Pro 2026. 4. 6. 14:11

PyMuPDF-Layout: 문서파싱, GPU없이 10배 빠르게 가능한 이유?

PyMuPDF-Layout은 어떻게 시작되었을까요?*PyMuPDF-Layout은 'PyMuPDF Pro' 패키지에 포함된 표 등 레이아웃 전용 추출 라이브러리입니다. 복잡한 레이아웃 문서를 파싱할때 PyMuPDF Pro와 Layout을 이용하면 더욱 정확한 문서 파싱이 가능합니다.지난해 9월, 유럽과 아시아 각지에서 일하던 ePapyrus와 Artifex 팀원들이 한자리에 모였습니다.( ePapyrus와 Artifex는 전 세계 거의 모든 타임존에 팀원이 있는 회사입니다.)장소는 샌프란시스코 본사에서 북쪽으로 약 70마일 떨어진 작은 해안 도시였습니다.안개가 자욱한 그곳에서, 우리는 일주일 내내 단 하나의 질문만을 놓고 이야기를 나눴습니다.35년 동안 쌓아온 문서 처리 경험, 특히 PDF처럼 구조가 복잡..

PyMuPDF Pro 2025. 12. 12. 10:13

비전 모델이 따라올 수 없는 문서 이해력: PDF 네이티브 접근 방식의 힘

Google이 최근 Gemini 3.0을 공개하면서 문서 AI 업계가 꽤 들썩이고 있습니다.멀티모달 성능이 좋아졌다는 얘기도 많고, 실제로 문서 처리 회사들 중 일부는 벌써 파싱 작업에 적용해서 필기체 인식이나 읽기 순서 감지 같은 부분의 개선을 확인했다고 합니다.하지만 초기 사용자들은 여전히 해결되지 않은 문제도 발견했습니다.복잡한 레이아웃에서는 성능이 떨어지고, 취소선 같은 텍스트 스타일을 제대로 못 잡는 경우가 많으며, 특정 텍스트 위치를 박스로 표시해 인용하는(bounding-box citation) 기능도 정확하지 않다는 점이죠.사실 이건 그렇게 놀라운 일도 아닙니다.PDF를 다룰 때 비전 기반 시스템은 근본적으로 넘어야 할 벽이 있어요.쉽게 말하면:애초에 문제 자체를 잘못 정의하고 있는 셈입니..

PyMuPDF Pro 2025. 12. 5. 16:44

표 부분만 쏙! 추출하는 똑똑한 인공지능 OCR, '텍스트센스 2.0' 등장!

일손 줄이려고 OCR 도입했다가 엉망으로 깨진 표 부분 수정하느라 시간만 낭비한 경험, 있으시나요? 새로워진 텍스트센스 2.0의 강력한 표 인식 기능을 소개합니다 :D 텍스트센스 2.0의 표 인식 기능은 인식 대상 문서 내에서 표만 자동으로 찾아 빠르게 텍스트 데이터로 추출합니다. 셀 안의 내용을 데이터로 추출할 때 표의 행과 열 순서가 그대로 반영됩니다. 병합된 셀 구조도 파악하여 원본 표 형태가 그대로 유지됩니다. 표 부분을 원본 구조와 내용 그대로 변환한 엑셀 파일을 내려받을 수 있습니다. 표 인식뿐만 아니라 일반 문서 인식 기능도, 키워드 검출 기능도 더 강력해진 TextSense 2.0 ! 아래 링크에서 그 성능을 직접 체험해 보세요 :) ▶데모 바로가기

페이퍼리스 2022. 11. 16. 11:21

이파피루스, 표 인식 대폭 강화된 AI OCR ‘텍스트센스 2.0’ 출시

문서 속 표 부분만 자동 인식…엑셀 파일 제공 키워드 검출 기능으로 원하는 정보만 찾아내 빠르게 OCR 가능…업무 효율 대폭 증가 [데이터넷] 전자문서·데이터 기술 전문 기업 이파피루스(대표 김정희)는 표 문서 인식 기능을 대폭 강화한 인공지능 문자인식(AI OCR) 솔루션 ‘텍스트센스 2.0(TextSense 2.0)’을 출시했다고 4일 밝혔다. ‘텍스트센스’는 흐리거나 오염/손상된 문서도 정확하게 읽어내는 인공지능 OCR 솔루션이다. 이번 업그레이드의 핵심은 ‘표 인식 기능’으로, 인식 대상 문서 내에 있는 표를 자동으로 찾아 텍스트 데이터로 추출해 준다. 표 구조와 내용 그대로 엑셀 파일(.xlsx)로 다운로드할 수도 있다. 이파피루스 최고운영책임자(COO) 김정아 부사장은 “기존 OCR은 표 안에..

언론보도 2022. 10. 26. 16:32

인간팀 VS AI : 인간과 인공지능이 똑같은 문서를 읽어보았다

인간과 AI의 대결은 늘 흥미로운 이야깃거리입니다. 2016년 알파고와 이세돌 9단의 명승부 이후 데이터 연산과 학습 능력 면에서는 인공지능이 이미 인간을 넘어섰다는 것이 정평이지만, 여전히 섣불리 판단하기 어려운 영역이 있습니다. 바로 언어 영역인데요. 단순히 숫자와 경우의 수를 계산하는 것을 넘어, 언어에는 '맥락'이 존재하기 때문입니다. 문법상 올바른 단어나 글자를 조합할 수 있다 해도, 문맥에 맞지 않으면 의미가 없죠. 인공지능 OCR(광학 문자 인식) '텍스트센스(TextSense)'의 AI는 문장 단위의 데이터를 학습하는 과정에서 스스로 문맥까지 자연스럽게 익혔습니다. 이를 통해서 기존 OCR은 잘 읽지 못하는 구김이 심하거나 오염된 문서, 인쇄 상태가 좋지 않은 문서의 글자도 맥락상 자연스럽..

페이퍼리스 2021. 10. 25. 16:18

다 같은 인공지능 OCR이 아니랍니다, 텍스트센스 vs 타사 OCR

이전 포스팅에서 문맥을 이해하는 AI OCR ‘텍스트센스(TextSense)’를 소개해 드렸습니다. 단어가 아닌 문장 단위의 데이터를 학습함으로서 문맥을 이해하고, 이를 통해 알아보기 힘든 글씨도 문맥상 자연스러운 글자로 정확하게 추출하는 제품인데요. 과연 기존 전통적 방식의 OCR에 비해서는, 그리고 시중에 나와있는 다른 인공지능 OCR에 비해서는 얼마나 더 정확할까요? 백문이 불여일견, 실제 동일한 문서 이미지로 테스트를 진행한 결과들을 소개합니다. AI를 적용하지 않은 기존 OCR 제품과 ‘텍스트센스’를 비교한 샘플입니다. 기존 방식의 OCR 제품들은 지면 이미지가 얼룩지거나 구겨져 있으면 인식률이 떨어지는 것이 일반적이었습니다. 반면 텍스트센스는 문맥상 최대한 자연스러운 글자로 인식해낸 것을 볼 ..

페이퍼리스 2021. 7. 30. 14:31

OCR이 사람처럼 문맥을 이해한다고요? 비결은 ‘통문장 학습법’!

극장에서 외국 영화를 본다고 생각해 봅시다. 자리에 앉았는데 아뿔싸, 하필 앞에 유독 키가 큰 사람이 앉아 화면의 자막이 자꾸 가려집니다. 주인공이 운전을 하며 어디론가 전화를 거네요. “출발했어. 20분 정도면 도OOOO.” “알았어. 그럼 약속대로 거기서 OOO”. 앞사람에게 비켜달라고 하고 싶은 마음은 굴뚝같지만, 흐름상 대충 “20분 정도면 도착할 거야”, “거기서 보자구”, 정도의 대화가 오갔다고 추측할 수 있습니다. 어떻게 아냐고요? 이런 대화와 문장들은 이미 일상 생활에서도 수없이 접해 보았으니까요. 우리는 문장을 읽을 때 무의식 중에 이미 접했던 문장들과 비교합니다. 만약 문장에 빈칸이 있거나 알아보기 어려운 글자가 있다면 과거의 경험에 비추어 문맥상 자연스러운 단어나 표현으로 추측해서 읽..

페이퍼리스 2021. 7. 27. 16:44

(주)이파피루스 블로그

티스토리툴바

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31