목소리 잃은 이들의 새 희망 될까...구글, AI 음성 시스템 '테코트론2' 출시
상태바
목소리 잃은 이들의 새 희망 될까...구글, AI 음성 시스템 '테코트론2' 출시
  • 이문길
  • 승인 2020.01.20 00:00
  • 댓글 0
이 기사를 공유합니다

구글이 문자-음성 변환 시스템 태코트론2를 출시했다(사진=픽사베이)

인공지능의 음성기술이 음성 구분은 물론 목소리를 잃어버린 사람들에게 새로운 희망으로 떠오르는 모양새다.

구글은 심층 신경망과 언어 생성 기법인 웨이브넷(WaveNet)을 활용해 태코트론2(Tacotron 2)라는 문자-음성 변환 시스템을 출시했다. 웨이브넷은 음성을 생성하기 위해 스펙트로그램(spectrogram)이라는 음성을 시각적으로 표현한 사진을 분석할 수 있으며, 현재는 이 기술을 사용해 구글 어시스턴트(Google Assistant)의 목소리를 만들고 있다. 이 때문에 이 기술을 사용하면 특정 소리가 사람이 낸 소리인지 아니면 AI가 생성한 소리인지 거의 구분이 불가능하다.

이와 같은 도구는 음성 구분은 물론 목소리를 잃어버린 사람들에게 도움이 될 전망이다. 예를 들어, 구글 어시스턴트의 미국 기기에서는 존 레전드의 목소리가 옵션으로 있다. 따라서 "달까지는 얼마나 멀어?" 혹은 "오늘 날씨는 어때?" 같은 질문에 존 레전드의 목소리로 대답을 들을 수 있다는 의미다. 이 같은 고급 기술은 신제품과 서비스를 제공할 수 있는 라이어버드(Lyrebird) 같은 새로운 기회를 만들었다. 라이어버드는 챗봇이나 오디오북, 비디오게임, 텍스트 리더 용도의 소리를 개발할 때 AI를 강화할 수 있다.

 

◆ AI 음성기술 '웨이브넷'

음성기술을 개발하는 AI의 기능은 단순히 유명인사의 목소리를 옵션으로 사용하는 것을 넘어 기업들에게 여러 가지 가능성을 제공하고 있다. 그리고 목소리를 잃은 사람들에게 도움이 되고 있다. 전미미식축구리그에서 활약했던 전직 미식축구선수였던 팀 쇼가 그 대표적인 사례다. 최고의 기량을 뽐내던 쇼는 갑자기 성적이 흔들리기 시작했다. 그리고 어느 날 갑자기 거동이 어려워졌다.

그의 증상은 곧 악화됐고, 2013년 일명 루게릭병이라고 하는 근위축성 측색경화증(ALS)을 진단받았다. 수위근을 조절하는 신경이 파괴돼 전신을 제어하기 어려워졌다. 그리고 이 때문에 걷지도 못하고 삼키지도 못하며 심지어 말할 수도 없게 됐다. 쇼는 "머리 속으로 말하려는 것을 표현하지 못해 답답했다. 나는 전보다도 영리해지고 있는데 이를 표현할 길이 없었다."라고 말했다.

바로 여기에 AI 같은 기술을 사용할 수 있는 것이다. 수년 동안, 구글 같은 기술 기업들은 사용자의 본래 목소리를 낼 수 있도록 문자-음성 변환 기술을 맞춤화 할 수 있는 방안을 연구했다. 영국 AI 기업 딥마인드(Deepmind)는 웨이브넷 기술을 사용해 아주 짧은 음성 녹음으로 사용자의 목소리를 재현했다. 웨이브넷은 장시간의 음성 발화 데이터와 텍스트 데이터로 훈련을 시켰다. 6개월 후, 구글 AI 팀은 쇼와 그의 가족에게 결과를 제시했다. 그들은 몇 년 만에 다시 쇼의 예전 목소리를 들을 수 있게 됐다.

쇼는 인터뷰에서 "잃어버렸던 내 일부를 되찾은 것 같다. 이는 놀라운 경험"이라고 말했다.

테코트론2를 시연한 한 발성장애인은 "잃어버린 일부를 되찾은 것 같다"고 밝혔다(사진=픽사베이)

◆ 사람들의 목소리 보존

최근, AI로 운동 신경 질병이나 성대암 같은 질병으로 인해 말할 수 있는 능력을 상실한 사람을 도울 수 있는 길이 열렸다. AI를 사용해 사람들의 목소리를 보존 및 재현하는 기업인 보컬iD(VocaliD)는 노스이스턴대학과 협업을 통해 목소리보존클리닉(Voice Preservation Clinic)을 출범했다. 이 클리닉의 취지는 사람들이 목소리를 유지해 자신의 정체성을 지킬 수 있는 방안을 제공하는 것이다.

보컬iD의 설립자 루팔 파텔 교수는 수많은 사람들이 자신만의 방식으로 고유한 목소리를 기록할 수 있지만, 그렇게 녹음한 기록 모두가 고급 장비로 접근할 수 있는 것은 아니라고 말했다. 따라서 자신의 연구팀은 대중들이 자신의 목소리를 남길 수 있는 기술을 개발하기 위해 결정했다고 밝혔다.

파텔 교수는 "데이터를 사용해 AI 생성 음성 엔진을 구축할 수 있다"고 설명했다. 먼저, 연구팀은 사용자에게 짧은 시나 연설문, 짧은 이야기 등 읽을거리를 제공해 음성을 녹음한 후 이렇게 저장한 음성 데이터로 기계학습 알고리즘을 훈련시킨다. AI 생성 음성 엔진은 목소리를 분해한 후 사용자 스마트폰에 설치한 애플리케이션에서 사용할 수 있게 만든다.

이처럼 AI는 목소리를 잃고 정체성을 잃었다고 좌절하는 사람들에게 새로운 기회를 열어줄 것으로 기대된다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사