고려대학교 산학협력단(이하 고려대 산단)이 최근 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 추진하는 ‘2022년 인공지능 학습용 데이터 구축사업’에 선정됐다고 14일 밝혔다.
이번 구축사업에서 고려대 산단은 의료, 법률 전문 서적 말뭉치 데이터 구축 분야를 맡아, 전문 지식이 필요한 의료 및 법률 분야의 말뭉치를 체계적으로 분류하여 고부가가치 말뭉치 데이터를 구축하게 됐다.
고려대 산단은 군자출판사㈜, ㈜박영사, ㈜범문에듀케이션, 법문사 등 의료 및 법률 분야 전문 출판업체 4개와 데이터 품질 관리 업체인 ㈜나라지식정보, 학습모델 개발 및 평가를 수행할 한양대학교 산학협력단 등 6개 기관과 컨소시엄을 구성했다. 사업은 오는 12월까지 7개월간 수행하며 사업비는 정부출연금 20억 원, 민간부담금 2억 4250만원으로 총 22억 4250만원이다.
고려대 산단은 의료와 법률 전문 도서 각 200종을 선정하여 1억 어절 이상의 정제된 말뭉치를 구축하는 것을 목표로 한다. 이를 위해 최신 전문 도서의 디지털 파일을 수집하고, 의료, 법률, 언어 분야 전문가와 함께 크라우드 워커로 참여 인력을 구성하여 보다 정밀하게 라벨링 된 인공지능 학습용 데이터세트를 제공할 예정이다.
이번 사업은 6개 기관 외 타 기관 및 기업과의 협업도 계획하고 있다. 구축 과정에서는 연구소, 출판사 및 AI 스타트업이 참여하는 연합포럼을 구성하여 의료 및 법률 분야의 자연어처리 기술을 개발하고 비즈니스를 활성화하도록 할 예정이다. 또한, AI 전문기업인 심심이, 엘박스, 바이칼에이아이와도 연계하여 인공지능 개발에 필요한 기반 데이터로 지원할 계획이다.
전문 서적을 기반으로 확보된 데이터세트인 만큼 향후 다양한 분야의 한국어 말뭉치 구축 표본으로 활용 가능하며, 두 전문 분야의 융합으로 새로운 자연어처리 시장을 확보할 수 있어 국내 인공지능 개발 환경을 조성하는데 일조할 것으로 기대를 모으고 있다.
이번 구축사업의 총괄 책임자는 그동안 의료분야 말뭉치 데이터세트 표준 및 자연어처리기술 개발을 선도해 온 고려대학교 안암병원 순환기내과 주형준 교수가 맡았다. 주 교수는 “고품질의 말뭉치는 인공지능의 활용을 극대화 할 수 있는 가장 중요한 기반 중 하나”라고 설명하며 “높은 정확도와 전문성이 요구되는 의학과 법률 분야에서, 고도로 정제된 말뭉치를 구축함으로써 다양한 인공지능 솔루션이 개발될 수 있는 계기가 될 것으로 기대한다”고 밝혔다.
정진용 기자 jjy4791@kukinews.com