티스토리 뷰

극장에서 외국 영화를 본다고 생각해 봅시다. 자리에 앉았는데 아뿔싸, 하필 앞에 유독 키가 큰 사람이 앉아 화면의 자막이 자꾸 가려집니다. 주인공이 운전을 하며 어디론가 전화를 거네요. “출발했어. 20분 정도면 도OOOO.” “알았어. 그럼 약속대로 거기서 OOO”. 앞사람에게 비켜달라고 하고 싶은 마음은 굴뚝같지만, 흐름상 대충 “20분 정도면 도착할 거야”, “거기서 보자구”, 정도의 대화가 오갔다고 추측할 수 있습니다. 어떻게 아냐고요? 이런 대화와 문장들은 이미 일상 생활에서도 수없이 접해 보았으니까요.

우리는 문장을 읽을 때 무의식 중에 이미 접했던 문장들과 비교합니다. 만약 문장에 빈칸이 있거나 알아보기 어려운 글자가 있다면 과거의 경험에 비추어 문맥상 자연스러운 단어나 표현으로 추측해서 읽을 수 있습니다. 외국어 공부법 중 통문장 학습법”, “실전 문장 외우기등도 이러한 점에 착안한 학습법이죠.

그렇다면 같은 방식을 인공지능에 접목하면 어떨까요? 이파피루스의 텍스트센스(TextSense)’는 이미지 속 문자를 추출하는 OCR(광학 문자 인식)에 인공지능을 접목한 솔루션입니다. 제품 자체가 새로 나오지 않는 이상 인식률이 개선되기 어려웠던 기존 OCR의 한계를 대량의 데이터를 학습한 AI로써 극복하고자 하는 시도는 텍스트센스이전에도 있었습니다.

그러나 문맥을 이해하는 AI OCR텍스트센스가 최초입니다.

대부분의 OCR제품에 쓰이는 AI는 단어 단위의 텍스트 데이터를 학습하고 이를 기반으로 이미지 속 글자를 인식합니다. 덕분에 전통적 방식의 OCR보다 정확도는 다소 높아졌지만 간혹 흐릿한 글자가 있으면 엉뚱한 단어로 인식하거나 아예 인식하지 않고 건너뛰는 경우도 있습니다.

텍스트센스AI는 단어가 아닌 문장 단위의 데이터를 학습했고, 방대한 양의 문장 데이터를 학습하는 과정에서 스스로 문맥까지 자연스럽게 익혔습니다. 이를 통해 인쇄 상태가 좋지 않거나 구김, 오염 등으로 인해 알아보기 힘든 글자가 나와도 다른 OCR처럼 무조건 비슷한 글자로 인식하는 대신, 모양이 비슷하면서도 문맥상 비교적 자연스러운 글자로 추측해 냅니다. 마치 사람이 문장의 빈칸을 문맥상 자연스러운 말로 채우듯이 말이죠. 덕분에 전통적 방식의 OCR은 물론, 다른 AI OCR 제품에 비해서도 정확도가 월등히 높아졌습니다.

구체적으로 얼마나 정확하게 인식하는지 궁금하시죠?

다음 포스팅에서 계속됩니다😊