수만 건의 계약서를 분석해 핵심 날짜, 이름, 의무 조항을 깔끔한 스프레드시트로 정리해 줄 팀을 고용했다고 상상해 보겠습니다.그런데 그 결과물이 맞는지 확인할 방법이 전혀 없다면 어떨까요? 무작위로 샘플을 뽑아볼 수도 없고, 원본과 대조할 수도 없습니다. 그저 출력 결과를 믿고, 시스템에 입력하고, 다음 단계로 넘어갈 뿐입니다.오늘날 대부분의 기업이 문서 추출에 AI를 도입하는 방식이 바로 이렇습니다. 이는 생각보다 심각한 문제가 되고 있죠.이 모든 것을 바꿔줄 개념이 바로 그라운딩(Grounding) 입니다.그라운딩이란?그라운딩이란 출력 결과를 원본 근거에 연결하는 것입니다. 즉, 추출된 모든 정보가 원본 문서의 검증 가능한 위치로 추적될 수 있도록 보장하는 것입니다.문서 데이터 추출에서 그라운딩은 모..
안녕하세요, 이파피루스 마케팅입니다.최근 LLM(거대언어모델)을 활용한 문서 AI 구축이 기업들의 핵심 과제로 떠오르고 있습니다. 하지만 정작 AI가 읽어야 할 문서의 상태가 제각각이라 데이터 추출 단계에서 어려움을 겪는 경우가 많죠.이파피루스는 이러한 고민을 해결하기 위해, 글로벌 다운로드 수 누적 5억 8천만 건을 자랑하는 PyMuPDF Pro와 웹 기반 PDF SDK인 MuPDF Web Viewer의 대규모 업데이트를 진행했습니다. "더 빠르게, 더 정확하게, 그리고 더 믿을 수 있게" 변모한 주요 기능을 소개합니다.하이브리드 OCR : "모든 페이지를 이미지로 변환하던 시대는 끝났습니다"기존의 OCR 방식은 텍스트가 이미 포함된 디지털 PDF조차 전체를 이미지로 굽고 다시 읽어내는 비효율적인 과정..
컨텍스트 윈도우의 한계모든 LLM에는 한 번에 처리할 수 있는 최대 텍스트 길이, 즉 **컨텍스트 윈도우(context window)**가 존재합니다. 최신 모델들은 100,000토큰을 넘는 긴 컨텍스트를 지원하기도 하지만, 문서 전체나 데이터베이스를 그대로 모델에 입력한다고 해서 항상 좋은 결과가 나오지는 않습니다.컨텍스트가 길어질수록 모델이 그 안에서 정말 중요한 정보를 정확히 찾아내는 능력은 오히려 떨어질 수 있습니다.이때 데이터 청킹(chunking)이 큰 역할을 합니다. 콘텐츠를 논리적인 단위로 나누면, 모델은 불필요한 정보 없이 필요한 부분만 전달받을 수 있습니다.검색 정확도 향상RAG(Retrieval-Augmented Generation) 시스템에서는 청킹 방식이 검색 품질에 직접적인 영향..
PDF 텍스트 검색 및 치환: PyMuPDF Pro로 간단하게 해결하기PDF 편집은 오래전부터 개발자들에게 까다로운 작업이었지만, PyMuPDF Pro를 사용하면 훨씬 간단하게 처리할 수 있습니다.회사 이름을 업데이트하거나, 오타를 수정하거나, 여러 문서에 걸쳐 오래된 정보를 교체해야 할 때 PyMuPDF Pro는 강력한 검색 및 치환 기능을 제공합니다.PyMuPDF Pro란?PyMuPDF Pro는 MuPDF의 파이썬 바인딩으로, 가볍고 빠른 PDF 툴킷입니다.속도가 빠르고 메모리 효율이 뛰어나며, 텍스트 추출·렌더링·수정까지 다양한 기능을 제공합니다.특히 일부 라이브러리처럼 새 문서를 생성하지 않고, 기존 PDF의 구조와 포맷을 유지한 채 직접 수정할 수 있다는 장점이 있습니다.설치아래와 같이 pip으..
코드 한 줄만 삽입하면 웹에서 PDF 열람 및 편집 가능한 SDK '뮤PDF 웹뷰어' 구독챗GPT 이어 두 번째 초대형 글로벌 AI 기업 고객…AI 서비스 필수 요소로 각광문서 AI 기업 이파피루스(대표 김정희)는 최근 AI 기반 대화형 검색 엔진 퍼플렉시티가 자사의 문서 뷰어 개발 키트(SDK)인 '뮤피디에프 웹뷰어'의 첫 구독 고객이 됐다고 13일 밝혔다.'뮤피디에프 웹뷰어'는 이파피루스의 대표 제품인 PDF 스트리밍 뷰어 '스트림닥스(StreamDocs)'를 기반으로 한 뷰어 SDK다. 코드 한 줄만 입력하면 별도의 서버 구축 없이도 브라우저 내에서 작동하는 PDF 뷰어를 구현할 수 있다. 문서 열람은 물론 강조 표시, 주석 달기, 양식 작성, 서명, 콘텐츠 삭제 등의 편집 작업도 가능하다. 올해 ..
AI가 복잡한 비정형 정보까지 감지해 비식별화…이름, 지명 등도 문맥 분석으로 해결[아이티데일리] 문서 인공지능(AI) 기업 이파피루스(대표 김정희)는 최근 출시한 거대언어모델(LLM) 기반 개인정보 비식별화 솔루션 ‘AI 블랙마커(AI BlackMarker)’로 문서 내 개인정보 유출에 대응한다고 23일 밝혔다. 개인정보보호위원회에 따르면 2021년부터 올해 9월까지 민간기업 및 공공기관을 포함한 총 377개 기관에서 개인정보가 유출됐으며, 유출된 개인정보의 총합은 약 7,735만 건에 달한다. 개인정보는 연락처, 주민등록번호 외에도 신체적·인적·정신적·사회적·재산적 정보를 아우르는 광범위한 개념이다. 금융 및 의료, 행정 기관과 학교, 여행업계 등 산업 전 분야에서는 개인정보 보호를 위해 다양한 선제..
문서 AI 기업 이파피루스(대표 김정희)가 최근 대형언어모델(LLM) 기반 문서 AI 제품을 연달아 출시하며, 업계의 주목을 한 몸에 받고 있다.지난 6월 국내 및 글로벌 동시 출시한 ‘스트림닥스 에이아이(StreamDocs.ai)’는 인공지능 문서 질의응답 LLM 서비스다. 문서 내용을 토대로 인공지능과 대화하며 필요한 정보와 인사이트를 얻을 수 있다. 긴 문서의 내용을 핵심만 요약하거나, 수백 장의 문서 내에서 필요한 정보만 빠르게 검색하는 등의 요청을 대화 식으로 편하게 요청하고 답변을 받을 수 있다.특히, 답변의 근거가 되는 문장을 문서 내에 하이라이트로 표시하고, 답변 하단의 출처 버튼을 누르면 문서 내 해당 위치로 바로 이동해 내용을 확인할 수 있어 유사 서비스 대비 답변 신뢰도를 한층 더 높..
AI 기업 이파피루스가 대규모 언어 모델(LLM)을 활용한 개인정보 비식별화 솔루션 ‘AI BlackMarker’를 26일 발표했다. 이 솔루션은 문서 내 개인정보를 자동으로 식별하여 가리거나 다른 문자로 치환하는 방식으로 비식별 처리를 수행한다.▲ 이파피루스 ‘AI BlackMarker’의 비식별화 프로세스AI BlackMarker는 주민등록번호, 전화번호, 이메일 등 정형화된 개인정보는 물론, 성명, 주소, 직업 등 비정형 민감정보까지 빠르고 정확하게 처리한다. 이는 AI가 개인정보의 다양한 형태를 학습한 결과로, 기존 비식별화 방식으로는 처리하기 어려웠던 정보까지 처리할 수 있다는 점에서 큰 강점을 지닌다.김정아 이파피루스 부사장은 “개인정보는 연락처나 신분증 번호에 국한되지 않고, 신체적, 인적,..
▲ 이파피루스가 인공지능 특화 문서 데이터 추출 기술을 앞세워 시장 확대를 위한 전략을 밝혔다. 문의 65%가 문서 AI 기술 관련 내용..전년 대비 2배 이상 증가이파피루스가 AI 특화 문서 데이터 추출 기술을 앞세워 시장 확대를 위한 전략을 밝혔다. 이파피루스는 올해 1분기 글로벌 고객 문의 중 65%가 문서 AI 기술에 관련된 내용으로, 전년 동기 대비 2배 이상 증가했다고 발표했다. 특히 지난 연말 오픈AI의 ‘챗GPT’에 학습 및 문서 처리 서비스를 위한 PDF 기술을 공급하면서 오픈AI의 기업 고객까지 해당 기술을 사용하게 되는 등 AI 업계에서의 영향력을 한층 강화했다. 기사 전문은 아래 링크에서 확인하실 수 있습니다.https://www.hellot.net/news/article.htm..
- Total
- Today
- Yesterday
- 전자서식
- 문서ai
- PDF편집
- Ai
- 예지보전
- 모터센스
- PDFpro
- PyMuPDFPro
- 스마트공장
- 피터펜
- pdf추출
- 파이썬라이브러리
- ocr
- paperless
- LLM
- pdf프로
- 전자문서
- epapyrus
- 이벤트
- PDF-Pro
- pdf뷰어
- PDF변환
- 페이퍼리스
- 고장예측
- 피터팬
- 이파피루스
- 인공지능
- pdf프로그램
- djvu
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
