연합뉴스

"비꼬는 어조까지 포착"…음성 분석해 표정 바꾸는 AI

입력 2026-06-18 14:04:32

다음 내용이 궁금하다면?

불편하시다면 뒤로 가기를 눌러주세요


UNIST, 음성 속 감정으로 영상 화자 표정 바꾸는 기술 개발




C-MET와 기존 방법들의 감정 편집 결과 비교

[울산과학기술원 제공. 재판매 및 DB 금지]



(울산=연합뉴스) 허광무 기자 = "잘한다"는 말은 어조에 따라서 칭찬이 될 수도, 비꼬는 의미가 될 수도 있다.


이러한 음성 속 미묘한 감정을 인식해 영상 속 화자의 표정을 바꾸는 인공지능(AI) 기술이 개발됐다.


울산과학기술원(UNIST) 인공지능대학원 김태환 교수팀은 음성 신호에서 감정을 추출해, 별도 참조 이미지 없이도 영상 속 화자의 표정을 원하는 감정으로 바꿀 수 있는 인공지능 모듈 'C-MET'(Cross-Modal Emotion Transfer)를 개발했다고 18일 밝혔다.


C-MET는 음성에 담긴 감정의 변화량을 표정의 변화량으로 옮기는 것이 특징이다.


중립적 음성과 감정이 실린 음성의 차이를 벡터, 즉 변화의 방향과 크기를 담은 숫자 정보로 계산하고, 이 벡터가 얼굴에서는 어떤 표정 변화로 나타나는지를 AI가 학습하는 것이다.


이를 통해 말의 내용과 감정이 섞인 음성에서 표정 변화에 필요한 감정 신호를 따로 읽어낼 수 있다.


같은 문장이라도 어조가 달라지면 입꼬리, 눈썹, 눈 주변 움직임이 다르게 나타나도록 표정을 바꿀 수 있는 것이다.


또 각각의 감정에 '슬픔'이나 '기쁨' 같은 이름표를 붙여 학습시키는 방식과 달리, 두 감정 사이의 변화량을 보는 방식으로 비꼼, 공감, 카리스마처럼 학습 과정에서 직접 보지 못한 미묘한 감정도 표정에 반영할 수 있다.


감정이 담긴 음성을 입력에 사용하기 때문에 감정을 표현한 고품질 정면 사진과 같은 참조 이미지도 필요 없다.




C-MET 개발한 김태환 교수(왼쪽)와 최찬혁 연구원

[울산과학기술원 제공. 재판매 및 DB 금지]


이 기술은 최신 표정 편집 기술인 이디톡(EDTalk)보다 감정 표현 정확도가 14%p가량 높게 나왔다.


C-MET은 부품처럼 끼워 쓸 수 있는 모듈 형태인데, 기존 이디톡 모델의 표정 인코더를 C-MET로 대체해 실험한 결과 감정 정확도가 41.99%에서 55.91%로 향상됐다.


또 다른 말하는 얼굴 생성 모델인 'PD-FGC'에도 C-MET를 적용한 결과 감정 정확도가 33.36%에서 36.82%로 높아졌다.


C-MET가 특정 모델에 한정되지 않고 여러 얼굴 생성 AI 모델에 적용될 수 있음을 보여주는 결과다.


김태환 교수는 "이번 연구는 참조 이미지 없이 음성만으로 얼굴 영상의 감정을 바꿀 수 있다는 점에서 기존 방식들의 한계를 실질적으로 해결했다"라면서 "가상 인간 제작, 영화·콘텐츠 후반 작업, 감정 인식 AI 등 다양한 분야에 폭넓게 활용될 수 있는 기반 기술"이라고 말했다.


이번 연구 성과는 AI와 컴퓨터 비전 분야 국제학회인 'CVPR 2026'(Conference on Computer Vision and Pattern Recognition)에 채택됐다.


hkm@yna.co.kr



인기상품 확인하고 계속 읽어보세요!

5

원치 않을 경우 뒤로가기를 눌러주세요.

연합뉴스 콘텐츠 더보기

해당 콘텐츠 제공사로 이동합니다.

많이 본 최근 기사

관심 많은 기사