AI 원팀, 음성합성·음성인식·무빙픽처 연구성과 나와

기사승인 2021-01-07 14:35:38

▲ KT는 ‘AI 원팀’의 공동 R&D를 통한 첫 성과로 4종의 AI 기술 개발에 성공했다고 7일 밝혔다. /제공=KT

[쿠키뉴스] 구현화 기자 = KT와 현대중공업그룹, LG전자, LG U+, 한국투자증권, 동원그룹, KAIST, 한양대, ETRI가 참여해 출범한 ‘AI 원팀’이 10개월여 만에 첫 공동 연구개발(R&D) 성과를 내놓았다.

KT는 ‘AI 원팀’의 공동 R&D를 통한 첫 성과로 4종의 AI 기술 개발에 성공했다고 7일 밝혔다.

개발된 4개 기술은 ▲딥러닝 음성합성(P-TTS) ▲E2E 음성인식 ▲무빙 픽처(Moving Picture) ▲AI 기반 로봇 고장 진단 기술이다. 여기서 만들어진 4개 연구 성과 가운데 3개는 KT 사업의 핵심기술로 활용하고, 1개는 현대중공업그룹의 산업 현장에 적용할 예정이다.

‘딥러닝 음성합성(P-TTS, Personalized-Text To Speech)’ 기술은 KT와 KAIST 김회린 교수가 협력해 개발했다. 기존 대비 비용을 4분의 1 수준으로 줄이고, 속도는 10배 가량 향상시킨 것이 특징이다. 순서대로 음성을 만드는 방식에서 동시에 음성을 만들어내는 방식으로 구조를 변경해, 획기적인 속도향상이 가능했다. KT는 올해 1분기 중으로 이 기술을 상용화해 AI 컨택센터(AICC), 차세대 기가지니 등에 활용할 계획이다.

‘E2E(End-to-End) 음성인식’ 기술은 KT가 한양대 장준혁 교수와 함께했다. 음성인식 분야의 최신 트렌드인 이 기술은 인식 정확도를 크게 높일 수 있고, 적은 양의 학습데이터로 도메인 확장이 가능해 활용성이 크다. 사양 증강(Spec Augmentation), 데이터 증강(Data Augmentation) 등 최신 학습기술을 적용해 기존 하이브리드 방식에 비해 단어 오류율(WER)을 7% 이상 향상시켰다. KT는 이 기술을 토대로 자유발화 음성인식률을 끌어올린다는 계획이다.

‘무빙 픽처(Moving Picture)’ 솔루션은 이미지를 영상으로 변환하는 AI 기술로 KT와 한양대 김태현 교수가 함께 연구했다. 이미지에 모션 효과를 적용해 영상으로 바꿔준다. 영상 분할, 객체 검출, 모션 추정, 초해상도 이미지 복원(인페인팅)과 같은 최신 AI 기술을 적용했다. KT는 이 무빙 픽처 솔루션을 IPTV를 비롯해 포스터, 웹툰, 애니메이티드 광고 등 다양한 분야에서 활용한다는 계획이다.

‘AI 기반 로봇 고장 진단’ 기술은 현대중공업그룹이 한양대 장준혁 교수와 공동으로 개발했다. AI가 산업용 로봇의 고장을 진단할 수 있는 기술로, 진동 신호에 음성처리 기술과 딥러닝 기술을 적용해 핵심 구동부품인 감속기의 이상을 탐지할 수 있다. 운전 조건에 관계 없이 적용 가능하고, 정상상태와 고장상태의 데이터 불균형을 해결해 진단의 정확도를 높였다. 현대중공업그룹은 이 기술을 다양한 로봇 제품에 적용해 자동화 라인의 유지보수 효율을 극대화할 수 있을 것으로 기대하고 있다.

AI 원팀은 출범 이후 40여명의 국내 AI 전문가들로 ‘AI 구루(Guru) 그룹’을 구성한 후, ‘라운드테이블(Round Table)’이라는 회의체를 통해 산업현장의 과제를 논의해 왔다. 현재까지 70여 차례 열린 이 ‘라운드테이블’에선 총 30여개의 아이템이 다뤄졌으며, 11개 연구개발 프로젝트를 도출했다.

이에 따라 올해 AI 원팀은 이번에 공개한 4개 프로젝트 외에도 AI 로봇 등 다양한 분야에서 7개 프로젝트를 추가로 추진하며, AI 혁신을 위해 지속 노력한다는 방침이다.

KT AI/DX융합사업부문장 송재호 부사장은 "AI 원팀이 개발한 AI 기술은 산업현장에서 나온 정확한 데이터와 최신 연구개발 역량이 즉시 결합돼 가능했다”며, “KT는 AI 원팀의 산학연 시너지를 기반으로 산업현장 현안 해결은 물론 사회문제 해결과 AI 인재양성을 위해 노력하겠다”고 말했다.

kuh@kukinews.com