컨텍스트 윈도우의 한계모든 LLM에는 한 번에 처리할 수 있는 최대 텍스트 길이, 즉 **컨텍스트 윈도우(context window)**가 존재합니다. 최신 모델들은 100,000토큰을 넘는 긴 컨텍스트를 지원하기도 하지만, 문서 전체나 데이터베이스를 그대로 모델에 입력한다고 해서 항상 좋은 결과가 나오지는 않습니다.컨텍스트가 길어질수록 모델이 그 안에서 정말 중요한 정보를 정확히 찾아내는 능력은 오히려 떨어질 수 있습니다.이때 데이터 청킹(chunking)이 큰 역할을 합니다. 콘텐츠를 논리적인 단위로 나누면, 모델은 불필요한 정보 없이 필요한 부분만 전달받을 수 있습니다.검색 정확도 향상RAG(Retrieval-Augmented Generation) 시스템에서는 청킹 방식이 검색 품질에 직접적인 영향..
PDF 텍스트 검색 및 치환: PyMuPDF Pro로 간단하게 해결하기PDF 편집은 오래전부터 개발자들에게 까다로운 작업이었지만, PyMuPDF Pro를 사용하면 훨씬 간단하게 처리할 수 있습니다.회사 이름을 업데이트하거나, 오타를 수정하거나, 여러 문서에 걸쳐 오래된 정보를 교체해야 할 때 PyMuPDF Pro는 강력한 검색 및 치환 기능을 제공합니다.PyMuPDF Pro란?PyMuPDF Pro는 MuPDF의 파이썬 바인딩으로, 가볍고 빠른 PDF 툴킷입니다.속도가 빠르고 메모리 효율이 뛰어나며, 텍스트 추출·렌더링·수정까지 다양한 기능을 제공합니다.특히 일부 라이브러리처럼 새 문서를 생성하지 않고, 기존 PDF의 구조와 포맷을 유지한 채 직접 수정할 수 있다는 장점이 있습니다.설치아래와 같이 pip으..
코드 한 줄만 삽입하면 웹에서 PDF 열람 및 편집 가능한 SDK '뮤PDF 웹뷰어' 구독챗GPT 이어 두 번째 초대형 글로벌 AI 기업 고객…AI 서비스 필수 요소로 각광문서 AI 기업 이파피루스(대표 김정희)는 최근 AI 기반 대화형 검색 엔진 퍼플렉시티가 자사의 문서 뷰어 개발 키트(SDK)인 '뮤피디에프 웹뷰어'의 첫 구독 고객이 됐다고 13일 밝혔다.'뮤피디에프 웹뷰어'는 이파피루스의 대표 제품인 PDF 스트리밍 뷰어 '스트림닥스(StreamDocs)'를 기반으로 한 뷰어 SDK다. 코드 한 줄만 입력하면 별도의 서버 구축 없이도 브라우저 내에서 작동하는 PDF 뷰어를 구현할 수 있다. 문서 열람은 물론 강조 표시, 주석 달기, 양식 작성, 서명, 콘텐츠 삭제 등의 편집 작업도 가능하다. 올해 ..
AI가 복잡한 비정형 정보까지 감지해 비식별화…이름, 지명 등도 문맥 분석으로 해결[아이티데일리] 문서 인공지능(AI) 기업 이파피루스(대표 김정희)는 최근 출시한 거대언어모델(LLM) 기반 개인정보 비식별화 솔루션 ‘AI 블랙마커(AI BlackMarker)’로 문서 내 개인정보 유출에 대응한다고 23일 밝혔다. 개인정보보호위원회에 따르면 2021년부터 올해 9월까지 민간기업 및 공공기관을 포함한 총 377개 기관에서 개인정보가 유출됐으며, 유출된 개인정보의 총합은 약 7,735만 건에 달한다. 개인정보는 연락처, 주민등록번호 외에도 신체적·인적·정신적·사회적·재산적 정보를 아우르는 광범위한 개념이다. 금융 및 의료, 행정 기관과 학교, 여행업계 등 산업 전 분야에서는 개인정보 보호를 위해 다양한 선제..
문서 AI 기업 이파피루스(대표 김정희)가 최근 대형언어모델(LLM) 기반 문서 AI 제품을 연달아 출시하며, 업계의 주목을 한 몸에 받고 있다.지난 6월 국내 및 글로벌 동시 출시한 ‘스트림닥스 에이아이(StreamDocs.ai)’는 인공지능 문서 질의응답 LLM 서비스다. 문서 내용을 토대로 인공지능과 대화하며 필요한 정보와 인사이트를 얻을 수 있다. 긴 문서의 내용을 핵심만 요약하거나, 수백 장의 문서 내에서 필요한 정보만 빠르게 검색하는 등의 요청을 대화 식으로 편하게 요청하고 답변을 받을 수 있다.특히, 답변의 근거가 되는 문장을 문서 내에 하이라이트로 표시하고, 답변 하단의 출처 버튼을 누르면 문서 내 해당 위치로 바로 이동해 내용을 확인할 수 있어 유사 서비스 대비 답변 신뢰도를 한층 더 높..
AI 기업 이파피루스가 대규모 언어 모델(LLM)을 활용한 개인정보 비식별화 솔루션 ‘AI BlackMarker’를 26일 발표했다. 이 솔루션은 문서 내 개인정보를 자동으로 식별하여 가리거나 다른 문자로 치환하는 방식으로 비식별 처리를 수행한다.▲ 이파피루스 ‘AI BlackMarker’의 비식별화 프로세스AI BlackMarker는 주민등록번호, 전화번호, 이메일 등 정형화된 개인정보는 물론, 성명, 주소, 직업 등 비정형 민감정보까지 빠르고 정확하게 처리한다. 이는 AI가 개인정보의 다양한 형태를 학습한 결과로, 기존 비식별화 방식으로는 처리하기 어려웠던 정보까지 처리할 수 있다는 점에서 큰 강점을 지닌다.김정아 이파피루스 부사장은 “개인정보는 연락처나 신분증 번호에 국한되지 않고, 신체적, 인적,..
▲ 이파피루스가 인공지능 특화 문서 데이터 추출 기술을 앞세워 시장 확대를 위한 전략을 밝혔다. 문의 65%가 문서 AI 기술 관련 내용..전년 대비 2배 이상 증가이파피루스가 AI 특화 문서 데이터 추출 기술을 앞세워 시장 확대를 위한 전략을 밝혔다. 이파피루스는 올해 1분기 글로벌 고객 문의 중 65%가 문서 AI 기술에 관련된 내용으로, 전년 동기 대비 2배 이상 증가했다고 발표했다. 특히 지난 연말 오픈AI의 ‘챗GPT’에 학습 및 문서 처리 서비스를 위한 PDF 기술을 공급하면서 오픈AI의 기업 고객까지 해당 기술을 사용하게 되는 등 AI 업계에서의 영향력을 한층 강화했다. 기사 전문은 아래 링크에서 확인하실 수 있습니다.https://www.hellot.net/news/article.htm..
- Total
- Today
- Yesterday
- 전자서식
- PDF변환
- 이파피루스
- djvu
- 피터펜
- pdf뷰어
- PDF-Pro
- 스마트공장
- 파이썬라이브러리
- IOT
- PyMuPDFPro
- 고장예측
- pdf프로
- pdf프로그램
- 모터센스
- 인공지능
- 아티펙스
- PDF편집
- paperless
- PDFpro
- 전자문서
- Ai
- 문서ai
- 예지보전
- epapyrus
- 페이퍼리스
- 피터팬
- pdf추출
- 이벤트
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |