NHN Cloud의 오디오 AI 연구 분야는 음성합성 (TTS) 와 음성인식(STT) 입니다.
1. 음성합성(Text To Speech, TTS)
음성합성 기술(Text To Speech, TTS)은 입력된 텍스트 내용을 음성으로 변환하는 기술입니다.
음성합성 과정은 먼저 음성합성 모델에 입력 될 텍스트를 발화의 최소 단위인 음소로 잘게 쪼갭니다.
이후 잘게 쪼개진 음소들을 음성합성 모델에 입력하면 모델이 각 음소에 따른 발화를 음성 신호로 출력하게 됩니다.
이때 음성합성 모델은 미리 학습된 화자의 목소리를 출력하게 되는데, 학습을 위해서 많은 시간동안 녹음된 화자의 목소리가 필요합니다.
<NHN AI 남자성우 음성합성 모델>
최근 NHN Cloud AI에서는 최소한의 화자의 목소리 만으로 음성합성 모델을 만드는 기술을 연구하고 있으며
1분 내외 분량의 목소리 만으로 해당 화자의 목소리를 출력하는 음성합성 모델을 만드는 기술을 개발하였습니다.
<약 1분 분량의 사내 사원의 음성으로 학습한 음성합성 모델>
또한, NHN Cloud AI에서는 다양한 캐릭터와 감정을 바탕으로 AI가 생동감 있게 동화책을 읽어주는 기술을 개발하고 있습니다.
2. 음성인식(Speech To Text, STT)
음성인식 기술(Speech To Text, STT)은 입력으로 받은 음성신호를 단어 혹은 음소 시퀀스로 변환하는 기술입니다.
쉽게 말해 사람의 음성을 텍스트로 변환하는 기술이라고 볼 수 있습니다.
음성인식 과정은, 먼저 입력 음성에서 특징을 추출하고, 음성 신호에 해당하는 문자를 선택하는 역할을 하는 음향모델(Acoustic Model), 문자들을 적절한 문장으로 합성하는 언어모델(Language Model)을 거쳐 인식 결과가 결정됩니다.
각각의 분리된 전통적 방식의 모델 학습하는 과정은 복잡한 방식이었고, 도달할 수 있는 성능에도 한계가 있었습니다.이를 극복하기 위해 다양한 학습 알고리즘들이 제안되었습니다.
최근 발표된 음성인식 기술에는 이런 분리된 방식에서 벗어나 End-to-End 방식을 사용하여 모든 모듈을 하나의 신경망으로 통합하는 기술이 새로운 트렌드로 자리 잡혔습니다.
End-to-End 방식은 구조가 단순하기 때문에 이전보다 쉽게 음성인식 모델을 훈련할 수 있으며, 전통적 방식의 음성인식기의 성능도 훌쩍 뛰어넘었습니다.
NHN AI Cloud에서는 음성인식 API를 통해 입력 음성의 변환된 텍스트를 제공합니다. 텍스트로 변환하고자 하는 음성 파일을 업로드하거나, 마이크를 통해 녹음하는 방식으로 음성을 텍스트로 변환을 할 수 있습니다.
general한 분야의 음성인식 뿐 아니라 특정영역에서 보다 정확도가 높은 음성인식기 확보를 위한 연구를 활발히 진행하고 있습니다.