'Tech Blog' 카테고리의 글 목록

[AI Human] 발화 인물 영상 생성 기술

NHN AI 팀에서는 AI Human이 말하는 영상을 생성하는 기술을 개발하고 있습니다. AI Human 영상을 생성하기 위해선 우선 텍스트로 음성을 합성하는 음성합성 기술과, 이 음성을 입력으로 받아 말하는 영상 이미지를 만드는 영상합성 총 2가지 종류의 기술이 필요합니다. 그 중 음성 합성과 관련된 영상은 https://ai.nhncloud.com/62 이 링크의 글에서 정리하고 있으며 이번 포스팅에서는 후자의 영상 합성과 관련된 기술을 소개하고, 이후 발전 및 개선된 연구들을 다뤄보려고 합니다. Synthesizing Obama 오바마 영상합성 기술 2017년 컴퓨터 그래픽스 학회인 SIGGRAPH 에서 오바마의 딥페이크 영상을 음성만으로 생성할 수 있는 기술이 등장하였습니다. 당시 CycleGAN..

2024.01.02

[Document AI] OCR을 넘어서서 문서의 내용을 이해하는 AI

이번 글에서는 최근 주목받고 있는 Document AI 분야에 대해서 알아보고 OCR 기술의 주요 연구 트렌드에 대해서 살펴보고 향후 OCR 기술의 발전 방향에 대해서 예상해 보도록 하겠습니다. OCR 분야의 최신 연구 흐름 기존의 OCR 기술은 문서 내의 글자만을 판독하는 목적으로 주로 사용이 되었습니다. 아래의 그림과 같이 주로 Text Detection과 Text Recognition의 두 단계로 구성되는 것이 일반적입니다. 최근에는 이 두 단계를 End-to-End 구조로 통일하는 연구들이 소개되는 추세입니다. AI 분야의 연구가 발전함에 따라서 이미지 혹은 문서 내에서 글자만을 추출하는 것이 목적이었던 기존의 OCR을 넘어서서 문서의 내용을 이해하여 좀 더 고차원적인 기능을 수행하는 분야를 Do..

2023.07.07

[Text-to-Music Generation] 음악 생성 그리고 AudioGPT

이번 글에서는 diffusion model을 활용한 음악생성 기술과 AudioGPT를 소개 드리고자 합니다. 최근들어 이미지 생성분야에서의 Diffusion model은 놀라운 성능을 보여주고 있는데요. 이제는 이미지 생성뿐만이 아니라 오디오 생성분야에서도 diffusion model을 활용하여 고음질 오디오를 생성하려는 연구가 활발히 진행되고 있습니다. 텍스트 프롬프트를 통해 텍스트를 입력받아 오디오 및 음악을 만들 수 있으며, 이러한 종류의 AI 모델은 일반적으로 "Text to Audio/Music" 또는 "Audio/Music Generation" 모델이라고도 합니다. 텍스트로 음악을 생성하는 Audio Generative Model 사실 이러한 ‘AI 생성 오디오(AI-generated aud..

2023.05.09

him; 비즈니스에 힘이 되다. powered by NHN Cloud AI

2023.05.09

[Text-to-Image Generation] ControlNet

AI가 만들어준 그림으로 미술대회에서 1등을 수상하다 혹시 여러분께서는 작년에 뉴스 기사를 읽거나 유튜브를 보던 중 아래 그림을 본 기억이 있으신가요? 이 신비한 그림은 2022년 8월 29일 미국 콜로라도 주립박람회 미술대회 디지털 아트 부문에서 1등을 차지한 그림입니다. 하지만 그림을 제출한 Jason Allen은 수상 발표를 통해 직접 그림을 그린 것이 아닌 텍스트로 이미지를 생성하는 미드저니(Midjourney) AI 모델로 그림을 생성했다고 밝히며 많은 논란이 있었습니다. 사실 완벽해보이는 위 그림은 단순히 미드저니 AI 모델을 한 번 사용한 것으로 만들어진 사진은 아닙니다. Jason Allen은 원하는 이미지를 생성하기 위한 적절한 텍스트 프롬프트를 찾는데 약 80시간 정도의 시간을 할애했다..

2023.04.04

[Paper][View Synthesis] NeRF

View Synthesis 테이블 위에 커피가 반쯤 담긴 잔을 올려놓은 뒤, 카메라의 위치와 각도를 바꿔가며 여러 장의 사진을 찍습니다. 사진을 찍은 뒤 테이블과 커피잔은 모두 치웁니다. 그런 뒤 치우기 전의 모습을 본 적 없는 사람에게 사진만 보여주며 사진 속의 테이블 위에 커피잔이 놓인 모습을 떠올려 보도록 요청한다고 생각해 보겠습니다. 두세 장 정도라면 부족하겠지만, 서로 다른 각도에서 찍은 충분한 양의 사진들을 보고 난 뒤라면 마치 눈앞에 있는 것처럼 생생히 떠올리는 것도 어렵지 않을 것입니다. 바라보는 각도를 천천히 달리할 때 표면에 반사된 조명이 반짝거리는 모습, 반쯤 비쳐 보이는 커피잔 바닥의 색조가 점차 옅게 바뀌는 모습도 떠올려볼 수 있을 것입니다. 정확히 어떤 특정 각도에서 찍은 사진을..

2023.03.20

태그

최근글

댓글

공지사항

아카이브

Tech Blog26

티스토리툴바