PyMuPDF-Layout은 어떻게 시작되었을까요?*PyMuPDF-Layout은 'PyMuPDF Pro' 패키지에 포함된 표 등 레이아웃 전용 추출 라이브러리입니다. 복잡한 레이아웃 문서를 파싱할때 PyMuPDF Pro와 Layout을 이용하면 더욱 정확한 문서 파싱이 가능합니다.지난해 9월, 유럽과 아시아 각지에서 일하던 ePapyrus와 Artifex 팀원들이 한자리에 모였습니다.( ePapyrus와 Artifex는 전 세계 거의 모든 타임존에 팀원이 있는 회사입니다.)장소는 샌프란시스코 본사에서 북쪽으로 약 70마일 떨어진 작은 해안 도시였습니다.안개가 자욱한 그곳에서, 우리는 일주일 내내 단 하나의 질문만을 놓고 이야기를 나눴습니다.35년 동안 쌓아온 문서 처리 경험, 특히 PDF처럼 구조가 복잡..
Google이 최근 Gemini 3.0을 공개하면서 문서 AI 업계가 꽤 들썩이고 있습니다.멀티모달 성능이 좋아졌다는 얘기도 많고, 실제로 문서 처리 회사들 중 일부는 벌써 파싱 작업에 적용해서 필기체 인식이나 읽기 순서 감지 같은 부분의 개선을 확인했다고 합니다.하지만 초기 사용자들은 여전히 해결되지 않은 문제도 발견했습니다.복잡한 레이아웃에서는 성능이 떨어지고, 취소선 같은 텍스트 스타일을 제대로 못 잡는 경우가 많으며, 특정 텍스트 위치를 박스로 표시해 인용하는(bounding-box citation) 기능도 정확하지 않다는 점이죠.사실 이건 그렇게 놀라운 일도 아닙니다.PDF를 다룰 때 비전 기반 시스템은 근본적으로 넘어야 할 벽이 있어요.쉽게 말하면:애초에 문제 자체를 잘못 정의하고 있는 셈입니..
이 포스팅에서는 PyMuPDF-Layout이 DocLayNet 데이터셋에서 어느 정도 성능을 보여주는지, 그리고 Docling과 비교했을 때 어떤 특징을 가지는지를 정리했습니다.레이아웃 감지는 IoU 기반 정확도로 평가했고, 모델 효율성도 함께 비교했습니다.🔍 Methodology — 어떻게 평가했을까?Dataset: DocLayNet (Pfitzmann et al., 2022)우리가 사용한 데이터는 DocLayNet이라는 대규모 문서 레이아웃 데이터셋입니다.훈련 데이터: 69,000 페이지검증 데이터: 6,480 페이지문서 종류: 재무 보고서, 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서 등레이블 종류: 총 11개caption, footnote, formula, list-item, page-foot..
이 블로그 포스트에서는 PyMuPDF Pro에 포함되어 있는 PyMuPDF Layout을 어떻게 시작하는지와, 무엇을 할 수 있는지 단계별로 설명합니다.Python과 명령줄(Command Line)에 대한 기본 지식, 그리고 PyPI(Python Package Index)에서 패키지를 설치해본 경험이 필요합니다.PyMuPDF Layout 설치하기먼저 PyPI에서 필요한 PyMuPDF Pro패키지를 설치해야 합니다.명령줄 또는 터미널을 열고 다음을 실행하세요:pip install pymupdf-layoutpip install pymupdf4llm요약하자면, PyMuPDF Layout은 추출해야 할 문서 레이아웃을 감지하는 역할,그리고 PyMuPDF4LLM은 결과물을 Markdown/JSON/텍스트로 출력하..
일손 줄이려고 OCR 도입했다가 엉망으로 깨진 표 부분 수정하느라 시간만 낭비한 경험, 있으시나요? 새로워진 텍스트센스 2.0의 강력한 표 인식 기능을 소개합니다 :D 텍스트센스 2.0의 표 인식 기능은 인식 대상 문서 내에서 표만 자동으로 찾아 빠르게 텍스트 데이터로 추출합니다. 셀 안의 내용을 데이터로 추출할 때 표의 행과 열 순서가 그대로 반영됩니다. 병합된 셀 구조도 파악하여 원본 표 형태가 그대로 유지됩니다. 표 부분을 원본 구조와 내용 그대로 변환한 엑셀 파일을 내려받을 수 있습니다. 표 인식뿐만 아니라 일반 문서 인식 기능도, 키워드 검출 기능도 더 강력해진 TextSense 2.0 ! 아래 링크에서 그 성능을 직접 체험해 보세요 :) ▶데모 바로가기
문서 속 표 부분만 자동 인식…엑셀 파일 제공 키워드 검출 기능으로 원하는 정보만 찾아내 빠르게 OCR 가능…업무 효율 대폭 증가 [데이터넷] 전자문서·데이터 기술 전문 기업 이파피루스(대표 김정희)는 표 문서 인식 기능을 대폭 강화한 인공지능 문자인식(AI OCR) 솔루션 ‘텍스트센스 2.0(TextSense 2.0)’을 출시했다고 4일 밝혔다. ‘텍스트센스’는 흐리거나 오염/손상된 문서도 정확하게 읽어내는 인공지능 OCR 솔루션이다. 이번 업그레이드의 핵심은 ‘표 인식 기능’으로, 인식 대상 문서 내에 있는 표를 자동으로 찾아 텍스트 데이터로 추출해 준다. 표 구조와 내용 그대로 엑셀 파일(.xlsx)로 다운로드할 수도 있다. 이파피루스 최고운영책임자(COO) 김정아 부사장은 “기존 OCR은 표 안에..
인간과 AI의 대결은 늘 흥미로운 이야깃거리입니다. 2016년 알파고와 이세돌 9단의 명승부 이후 데이터 연산과 학습 능력 면에서는 인공지능이 이미 인간을 넘어섰다는 것이 정평이지만, 여전히 섣불리 판단하기 어려운 영역이 있습니다. 바로 언어 영역인데요. 단순히 숫자와 경우의 수를 계산하는 것을 넘어, 언어에는 '맥락'이 존재하기 때문입니다. 문법상 올바른 단어나 글자를 조합할 수 있다 해도, 문맥에 맞지 않으면 의미가 없죠. 인공지능 OCR(광학 문자 인식) '텍스트센스(TextSense)'의 AI는 문장 단위의 데이터를 학습하는 과정에서 스스로 문맥까지 자연스럽게 익혔습니다. 이를 통해서 기존 OCR은 잘 읽지 못하는 구김이 심하거나 오염된 문서, 인쇄 상태가 좋지 않은 문서의 글자도 맥락상 자연스럽..
이전 포스팅에서 문맥을 이해하는 AI OCR ‘텍스트센스(TextSense)’를 소개해 드렸습니다. 단어가 아닌 문장 단위의 데이터를 학습함으로서 문맥을 이해하고, 이를 통해 알아보기 힘든 글씨도 문맥상 자연스러운 글자로 정확하게 추출하는 제품인데요. 과연 기존 전통적 방식의 OCR에 비해서는, 그리고 시중에 나와있는 다른 인공지능 OCR에 비해서는 얼마나 더 정확할까요? 백문이 불여일견, 실제 동일한 문서 이미지로 테스트를 진행한 결과들을 소개합니다. AI를 적용하지 않은 기존 OCR 제품과 ‘텍스트센스’를 비교한 샘플입니다. 기존 방식의 OCR 제품들은 지면 이미지가 얼룩지거나 구겨져 있으면 인식률이 떨어지는 것이 일반적이었습니다. 반면 텍스트센스는 문맥상 최대한 자연스러운 글자로 인식해낸 것을 볼 ..
극장에서 외국 영화를 본다고 생각해 봅시다. 자리에 앉았는데 아뿔싸, 하필 앞에 유독 키가 큰 사람이 앉아 화면의 자막이 자꾸 가려집니다. 주인공이 운전을 하며 어디론가 전화를 거네요. “출발했어. 20분 정도면 도OOOO.” “알았어. 그럼 약속대로 거기서 OOO”. 앞사람에게 비켜달라고 하고 싶은 마음은 굴뚝같지만, 흐름상 대충 “20분 정도면 도착할 거야”, “거기서 보자구”, 정도의 대화가 오갔다고 추측할 수 있습니다. 어떻게 아냐고요? 이런 대화와 문장들은 이미 일상 생활에서도 수없이 접해 보았으니까요. 우리는 문장을 읽을 때 무의식 중에 이미 접했던 문장들과 비교합니다. 만약 문장에 빈칸이 있거나 알아보기 어려운 글자가 있다면 과거의 경험에 비추어 문맥상 자연스러운 단어나 표현으로 추측해서 읽..
- Total
- Today
- Yesterday
- 고장예측
- 전자문서
- PyMuPDFPro
- djvu
- Ai
- 스마트공장
- 문서ai
- 아티펙스
- 이파피루스
- 이벤트
- 파이썬라이브러리
- 모터센스
- 피터팬
- ocr
- pdf추출
- pdf뷰어
- PDF편집
- 피터펜
- pdf프로그램
- epapyrus
- PDF변환
- 페이퍼리스
- PDFpro
- 인공지능
- 예지보전
- paperless
- PDF-Pro
- 전자서식
- pdf프로
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |