AI가 사람 목소리 흉내... ‘음성합성기술(TTS)’ 연구하는 IT기업들

AI가 사람 목소리 흉내... ‘음성합성기술(TTS)’ 연구하는 IT기업들

기사승인 2019-10-16 04:00:00

코레일은 지난해 44년간 고수해온 육성 안내방송을 포기하고 지난해 기계음인 TTS로 교체했다. 노선이 개통되거나 역 이름이 바뀌는 일이 잦아지면서 그때마다 성우를 섭외하고 음원을 편집하기엔 비용과 시간이 너무 많이 소요되서다. 처음엔 듣기 어색하다는 민원이 있었지만, 이제는 사람의 목소리와 구분이 안 갈 정도로 음성이 자연스러워졌다. 

안내방송이 자연스러운 기계음으로 대체된 사례를 보듯 최근 IT기업들은 '오디오' 기술 연구에 몰두 중이다. 음성합성기술(TTS, Text To Speech)은 컴퓨터 프로그램을 통해 문자를 음성으로 구현해내는 시스템이다. 기존엔 음성 파일을 생성하기 위해선 전문 성우가 음성 파일 전부를 녹음해야했지만, 최근 AI 기술과 TTS가 만나 목소리 일부분만 확보하면 호흡, 속도, 억양을 추출해 성우 없이 문장을 읽을 수 있게 됐다. IT기업들은 더 나아가 ‘상냥한’, ‘슬픈’, ‘경쾌한’ 등의 감정을 실은 감정TTS까지 상용화하기 위해 연구하고 있다. 

TTS는 원래 문자로 정보를 전달하기 어려운 상황에서 시각장애인 등 사용자들의 접근성 향상을 위해 개발됐다. 하지만 현재 통화연결음이나 버스‧지하철 안내방송, 오디오북 등 더 다양한 분야에서 TTS가 활용되고 있다. 특히 AI스피커, 차량용 인포테인먼트(IVI)처럼 하드웨어의 발전이 오디오콘텐츠에 대한 접근성을 높이자 IT기업들은 더욱 ‘들을 거리’를 제공하기 위한 경쟁에 몰두하게 된 것도 오디오 연구개발을 박차는 하나의 배경이다. 

IT기업들은 음성이 터치나 타이핑보다 훨씬 직관적이고 빠르게 명령을 전달하는 수단으로 보고 있다. 시장조사업체 컴스코어는 2023년 구글 검색의 절반 이상이 타이핑이 아닌 음성으로 이뤄질 것이라고 전망했다. AI 스피커에 "음악틀어줘"라고 말하는 현상이 더이상 어색하지 않은 현실이 이를 반증한다.

AI와 TTS가 만나 급성장한 분야는 오디오북 시장이다. 지난해 네이버 오디오클립에서 발표한 배우 유인나의 ‘노인과 바다’가 대표적이다. 실제론 유인나가 아닌 음성합성기술로 AI가 만들어낸 기계음인데, 지금까지 누적 재생수 33만여회를 기록하고 있다. AI로 제작된 오디오북은 하루 만에 완역본을 제작할 수 있을 정도로 경제성을 갖추고 있다.

KT는 개인화 음성합성기술(P-TTS)을 통해 개그맨 박명수 목소리를 구현한데 이어 부모 목소리로 아이에게 책을 읽어주는 ‘내 목소리 동화’도 출시했다. KT가 상용화한 P-TTS는 약 30분에 걸쳐 300개 샘플 문장을 녹음하면 세상에 하나뿐인 오디오 동화책이 완성된다. 추가로 녹음할 필요 없이 새로운 동화를 부모 목소리로 들려준다. 

다만 TTS기술이 고도화되면서 누군가 타인의 목소리를 AI에 학습시켜 보이스피싱에 동원하는 등 악용될 우려도 있다. 이에 대해 한 IT업계 관계자는 “TTS에 사람에겐 안들리지만 기계에는 들리는 주파수 같은 걸 도입해 실제 사람 목소리와 기계 목소리를 구분하도록 하는 방법이 가능하다”고 전했다. 

이어 “네이버나 구글, KT 등 많은 기업들이 각자의 AI기술을 가지고 서비스에 적용하지만 일반 사람들 입장에선 세세한 차이는 모르고 결국 ‘목소리’를 통해 기업들을 구별할 수 있다”며 “결국 기업들이 TTS를 서비스에 접목시키는 궁극적인 목적은 회사의 정체성을 나타낼 수 있는 수단이기 때문”이라고 설명했다.

이안나 기자 lan@kukinews.com

이안나 기자
lan@kukinews.com
이안나 기자
이 기사 어떻게 생각하세요
  • 추천해요
    0
  • 슬퍼요
    0
  • 화나요
    0
추천기사
많이 본 기사
오피니언
실시간