이번 글에서는 NHN Cloud가 보유하고 있는 OCR 기술에 대해서 소개 드리고자 합니다.
OCR (Optical Character Recognition) 기술은 이미지 내의 글자를 판독하여 텍스트로 변환해주는 기술입니다.
OCR 기술을 이용하면 방대한 양의 문서에 대해 빠른 처리가 가능하기 때문에 특히 비즈니스적인 수요가 매우 높은 기술입니다.
NHN Cloud에서는 사업자등록증, 자동차번호판, 신분증(운전면허증, 주민등록증), 신용카드 등에 대한 OCR 서비스를 제공하고 있는데요, Cloud API 뿐만 아니라 iOS / Android 기반 신용카드 SDK 등도 제공하여 사용자가 OCR 기술을 쉽게 활용할 수 있도록 준비되어 있습니다. 그럼 OCR 기술의 전반적인 내용에 대해서 우선 알아보고 NHN Cloud가 진행 중인 OCR 기술 개발 현황에 대해서도 간단히 소개 드리겠습니다.
OCR 기술의 구성
딥러닝 기반 OCR모델은 내부적으로 Text Detection 모델과 Text Recognition 모델이 결합된 형태로 구성되어 있습니다.
두 모델을 하나로 합친 End-to-End 구조의 연구들도 있지만 인식 정확도의 측면에서는 다소 부족한 점이 있어서 아래와 같이 분리된 구조로 구성되는 경우가 일반적입니다.
Text Detection 모델은 이미지 내의 글자의 위치를 파악하는 역할을 수행합니다.
신용카드 이미지에 대해서 Text Detection을 수행하면 아래와 같이 글자가 있는 영역을 탐지할 수 있습니다 (노란색 박스).
Text Recognition 모델은 이전 단계에서 찾아진 각각의 글자 영역을 문자열로 변환하는 역할을 수행합니다.
최근 연구 방향
다양한 형태의 OCR 서비스를 제공하기 위해서는 높은 수준의 OCR 기술을 내재화하고 state-of-the-art 수준의 모델을 개발하는 것이 가장 핵심적인 부분입니다. 현재 NHN Cloud의 OCR 모델은 이미 업계 최고 수준의 인식 정확도를 나타내고 있습니다. 좀더 높은 성능을 달성하기 위해 최신 연구들을 기존 모델에 접목하고자 꾸준히 노력 중에 있는데요, 관심을 갖고 보는 기술들은 대략적으로 다음과 같습니다.
- Self-supervised learning 분야의 최신 연구
- Object Detection 분야의 최신 연구
- NLP 분야의 최신 연구
각 분야의 최신 연구 중 OCR에 활용될만한 부분들을 중점적으로 분석하고 많은 실험들을 진행하고 있습니다.
세부 기술들에 대해서는 이후에 별도의 글로 다뤄보도록 하겠습니다.