다중 모달리티 기술은 기존 단일 데이터만 처리하는 유니 모달과 달리 이미지, 텍스트, 문자, 오디오 등 여러 형식의 데이터로 상관관계를 파악하는 것으로 AI 심층신경망 학습의 핵심이다.
그긴 AI기술 발달에 따라 머신러닝 알고리즘인 ‘비지도 학습(unsupervised training)’으로 분자구조의 화합물 성질을 예측하는 연구들이 제시됐지만, 새로운 화합물을 생성하면서도 기존 화합물의 특성까지 동시에 예측하는 기술은 구현하지 못했다.
이에 연구팀은 분자구조를 나타내는 문자열과 해당 분자의 생화학적 특성값 집합을 이용해 다중 모달리티 학습을 진행했다.
이를 통해 적은 계산비용으로 얻어낼 수 있는 수십 개 화학 특성값은 분자를 표현하는 데이터 형식으로 간주, 분자구조 정보와 화학 특성 사이의 상관관계를 학습하는 모델을 제시했다.
연구팀이 제안한 모델은 동시에 주어지는 50가지 이상의 특성값 입력에서도 분자구조를 예측하는 등 분자의 구조와 특성 모두의 이해를 요구하는 과제를 해결하는 능력을 보였다.
아울러 분자의 구조와 특성 데이터 정보를 공유해 화학반응 예측 및 독성 예측과 같은 다양한 문제에서 기존 AI기술을 뛰어넘는 성능을 나타냈다.
이번 연구결과는 분자의 독성 예측, 신약 또는 재료의 후보물질 탐색과 고분자나 단백질 등 다양한 생화학적 영역에 적용될 수 있을 것으로 기대된다.
한편 이번 연구는 장진호 석박통합과정이 제1저자로 참여했으며, 연구결과는 국제 학술지 ‘네이처 커뮤니케이션즈’3월 14일자 온라인판에 게재됐다.
대덕특구=이재형 기자 jh@kukinews.com