마이크로소프트 연구팀 개발

미국 마이크로소프트 연구팀이 목소리를 분석해 화자의 얼굴을 애니메이션으로 생성하는 AI를 개발해 주목을 끈다.

목소리만 가지고 그 목소리 주인공의 얼굴을 그려내는 인공지능(AI)이 등장해, 주목을 끈다.

8일, IT 전문 매체인 기가진은 미국 마이크로소프트 소속 연구팀이 목소리에 담겨 있는 ‘감정’을 분석해 화자의 얼굴을 애니메이션으로 자동 생성하는 AI를 개발했다고 전했다.

사람의 목소리에는 성별, 나이, 인종 등 화자의 정체성이 담겨 있다. 이런 특성을 살려, 사람의 목소리로 말하는 사람의 얼굴을 예상해 이미지를 생성하는 AI가 속속 개발돼 등장하고 있다. 이번에 마이크로소프트 연구팀이 개발한 AI는 음성을 보다 세밀하게 분석해 화자의 감정뿐 아니라 얼굴 표정까지 애니메이션 영상으로 재현 가능한 것이다.

지금까지 대화 음성을 AI로 분석하는 연구의 데이터 세트에는 알아듣기 쉽고 냉정하게 또박또박 이야기하는 대화 음성이 주로 사용돼 왔다. 그러나 사람이 실제로 대화를 주고받는 경우에는 주위에 잡음이 많고 목소리에도 화자의 감정과 다양한 버릇이 실리게 된다.

마이크로소프트 연구팀은 “우리 모두가 알고 있듯이, 대화 음성은 다양성으로 가득하다. 서로 다른 사람들이 다른 문맥으로 같은 단어를 발성하면 그 속도와 음정, 음색은 달라진다. 또 화자의 감정 상태와 성별, 나이, 민족, 개성을 나타내는 정보가 대화의 음성에 포함돼 있다”라고 설명하다.

이에 따라 연구팀은 이번 개발에서 베리에이션 오토 인코더(Variational Auto Encoder, VAE)를 사용하여 대화 음성을 분석했다.

연구팀은 34명의 화자로부터 제공받은 1000건 이상의 녹음, 다양한 민족으로 구성된 91명이 대화하는 7442건의 영상, 연설 동영상에서 가져온 10만건 이상의 음성을 데이터 세트로 사용해 VAE를 학습시켰다.

VAE는 입력된 대화 음성의 파형을 음성의 내용, 화자의 감정, 이외 다양한 변동 요인을 분석했다. 그리고 입력된 얼굴 이미지와 분석 결과를 영상 생성기에 보내 애니메이션을 작성했다.

연구팀은 “우리 연구는 음성표현학습의 관점에서 AI의 성능을 개선하는 첫 번째 접근이다”이라고 의미를 부여하고, “노이즈(잡음)가 많고 감정이 실려 있는 실제의 대화 음성으로 테스트해 이 모델을 검증하고 우리의 접근이 최첨단 기술을 능가하는 정확도가 나온다는 점을 보여 주었다”고 주장한다.

키워드

#N
저작권자 © 산경e뉴스 무단전재 및 재배포 금지