본문 바로가기 메뉴 바로가기

(주)이파피루스 블로그

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

(주)이파피루스 블로그

검색하기 폼
  • 전체보기 (319)
    • 이파피루스 소식 (78)
    • 페이퍼리스 (16)
    • 언론보도 (120)
    • 구축사례 (17)
    • PyMuPDF Pro (17)
    • PDF-Pro (31)
    • LIFE (20)
  • 방명록

LLM (7)
왜 데이터 청킹(Data Chunking)이 LLM 처리에서 필수적일까

컨텍스트 윈도우의 한계모든 LLM에는 한 번에 처리할 수 있는 최대 텍스트 길이, 즉 **컨텍스트 윈도우(context window)**가 존재합니다. 최신 모델들은 100,000토큰을 넘는 긴 컨텍스트를 지원하기도 하지만, 문서 전체나 데이터베이스를 그대로 모델에 입력한다고 해서 항상 좋은 결과가 나오지는 않습니다.컨텍스트가 길어질수록 모델이 그 안에서 정말 중요한 정보를 정확히 찾아내는 능력은 오히려 떨어질 수 있습니다.이때 데이터 청킹(chunking)이 큰 역할을 합니다. 콘텐츠를 논리적인 단위로 나누면, 모델은 불필요한 정보 없이 필요한 부분만 전달받을 수 있습니다.검색 정확도 향상RAG(Retrieval-Augmented Generation) 시스템에서는 청킹 방식이 검색 품질에 직접적인 영향..

PyMuPDF Pro 2026. 3. 3. 18:11
PyMuPDF Pro로 PDF에서 텍스트 검색·치환하기: 샘플 코드 포함

PDF 텍스트 검색 및 치환: PyMuPDF Pro로 간단하게 해결하기PDF 편집은 오래전부터 개발자들에게 까다로운 작업이었지만, PyMuPDF Pro를 사용하면 훨씬 간단하게 처리할 수 있습니다.회사 이름을 업데이트하거나, 오타를 수정하거나, 여러 문서에 걸쳐 오래된 정보를 교체해야 할 때 PyMuPDF Pro는 강력한 검색 및 치환 기능을 제공합니다.PyMuPDF Pro란?PyMuPDF Pro는 MuPDF의 파이썬 바인딩으로, 가볍고 빠른 PDF 툴킷입니다.속도가 빠르고 메모리 효율이 뛰어나며, 텍스트 추출·렌더링·수정까지 다양한 기능을 제공합니다.특히 일부 라이브러리처럼 새 문서를 생성하지 않고, 기존 PDF의 구조와 포맷을 유지한 채 직접 수정할 수 있다는 장점이 있습니다.설치아래와 같이 pip으..

PyMuPDF Pro 2025. 8. 22. 11:45
이파피루스, 챗GPT 이어 퍼플렉시티에도 자사 문서 기술 공급

코드 한 줄만 삽입하면 웹에서 PDF 열람 및 편집 가능한 SDK '뮤PDF 웹뷰어' 구독챗GPT 이어 두 번째 초대형 글로벌 AI 기업 고객…AI 서비스 필수 요소로 각광문서 AI 기업 이파피루스(대표 김정희)는 최근 AI 기반 대화형 검색 엔진 퍼플렉시티가 자사의 문서 뷰어 개발 키트(SDK)인 '뮤피디에프 웹뷰어'의 첫 구독 고객이 됐다고 13일 밝혔다.'뮤피디에프 웹뷰어'는 이파피루스의 대표 제품인 PDF 스트리밍 뷰어 '스트림닥스(StreamDocs)'를 기반으로 한 뷰어 SDK다. 코드 한 줄만 입력하면 별도의 서버 구축 없이도 브라우저 내에서 작동하는 PDF 뷰어를 구현할 수 있다. 문서 열람은 물론 강조 표시, 주석 달기, 양식 작성, 서명, 콘텐츠 삭제 등의 편집 작업도 가능하다. 올해 ..

언론보도 2025. 8. 13. 14:53
문서 내 개인정보 유출, 이파피루스 ‘AI 블랙마커’로 선제 대응

AI가 복잡한 비정형 정보까지 감지해 비식별화…이름, 지명 등도 문맥 분석으로 해결[아이티데일리] 문서 인공지능(AI) 기업 이파피루스(대표 김정희)는 최근 출시한 거대언어모델(LLM) 기반 개인정보 비식별화 솔루션 ‘AI 블랙마커(AI BlackMarker)’로 문서 내 개인정보 유출에 대응한다고 23일 밝혔다. 개인정보보호위원회에 따르면 2021년부터 올해 9월까지 민간기업 및 공공기관을 포함한 총 377개 기관에서 개인정보가 유출됐으며, 유출된 개인정보의 총합은 약 7,735만 건에 달한다. 개인정보는 연락처, 주민등록번호 외에도 신체적·인적·정신적·사회적·재산적 정보를 아우르는 광범위한 개념이다. 금융 및 의료, 행정 기관과 학교, 여행업계 등 산업 전 분야에서는 개인정보 보호를 위해 다양한 선제..

언론보도 2024. 10. 24. 16:54
LLM과 문서 기술 접목해 성능과 편의성 모두 잡았다!...이파피루스, '문서 AI 제품 연달아 출시, 업계 이목 집중'

문서 AI 기업 이파피루스(대표 김정희)가 최근 대형언어모델(LLM) 기반 문서 AI 제품을 연달아 출시하며, 업계의 주목을 한 몸에 받고 있다.지난 6월 국내 및 글로벌 동시 출시한 ‘스트림닥스 에이아이(StreamDocs.ai)’는 인공지능 문서 질의응답 LLM 서비스다. 문서 내용을 토대로 인공지능과 대화하며 필요한 정보와 인사이트를 얻을 수 있다. 긴 문서의 내용을 핵심만 요약하거나, 수백 장의 문서 내에서 필요한 정보만 빠르게 검색하는 등의 요청을 대화 식으로 편하게 요청하고 답변을 받을 수 있다.특히, 답변의 근거가 되는 문장을 문서 내에 하이라이트로 표시하고, 답변 하단의 출처 버튼을 누르면 문서 내 해당 위치로 바로 이동해 내용을 확인할 수 있어 유사 서비스 대비 답변 신뢰도를 한층 더 높..

언론보도 2024. 10. 18. 13:45
이파피루스, LLM 기반 개인정보 비식별화 솔루션 ‘AI BlackMarker’ 출시

AI 기업 이파피루스가 대규모 언어 모델(LLM)을 활용한 개인정보 비식별화 솔루션 ‘AI BlackMarker’를 26일 발표했다. 이 솔루션은 문서 내 개인정보를 자동으로 식별하여 가리거나 다른 문자로 치환하는 방식으로 비식별 처리를 수행한다.▲ 이파피루스 ‘AI BlackMarker’의 비식별화 프로세스AI BlackMarker는 주민등록번호, 전화번호, 이메일 등 정형화된 개인정보는 물론, 성명, 주소, 직업 등 비정형 민감정보까지 빠르고 정확하게 처리한다. 이는 AI가 개인정보의 다양한 형태를 학습한 결과로, 기존 비식별화 방식으로는 처리하기 어려웠던 정보까지 처리할 수 있다는 점에서 큰 강점을 지닌다.김정아 이파피루스 부사장은 “개인정보는 연락처나 신분증 번호에 국한되지 않고, 신체적, 인적,..

언론보도 2024. 10. 4. 16:51
이파피루스, 데이터 추출 기술로 LLM 시장 점유 노린다

▲ 이파피루스가 인공지능 특화 문서 데이터 추출 기술을 앞세워 시장 확대를 위한 전략을 밝혔다.  문의 65%가 문서 AI 기술 관련 내용..전년 대비 2배 이상 증가이파피루스가 AI 특화 문서 데이터 추출 기술을 앞세워 시장 확대를 위한 전략을 밝혔다. 이파피루스는 올해 1분기 글로벌 고객 문의 중 65%가 문서 AI 기술에 관련된 내용으로, 전년 동기 대비 2배 이상 증가했다고 발표했다. 특히 지난 연말 오픈AI의 ‘챗GPT’에 학습 및 문서 처리 서비스를 위한 PDF 기술을 공급하면서 오픈AI의 기업 고객까지 해당 기술을 사용하게 되는 등 AI 업계에서의 영향력을 한층 강화했다.  기사 전문은 아래 링크에서 확인하실 수 있습니다.https://www.hellot.net/news/article.htm..

언론보도 2024. 4. 29. 13:49
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • 이파피루스 홈페이지
  • 이파피루스 페이스북
  • 이파피루스 채용페이지
TAG
  • 전자서식
  • PDF변환
  • 이파피루스
  • djvu
  • 피터펜
  • pdf뷰어
  • PDF
  • PDF-Pro
  • 스마트공장
  • 파이썬라이브러리
  • IOT
  • PyMuPDFPro
  • 고장예측
  • pdf프로
  • pdf프로그램
  • 모터센스
  • 인공지능
  • 아티펙스
  • PDF편집
  • paperless
  • PDFpro
  • 전자문서
  • Ai
  • 문서ai
  • 예지보전
  • epapyrus
  • 페이퍼리스
  • 피터팬
  • pdf추출
  • 이벤트
more
«   2026/03   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바