실제 SK하이닉스 반도체 공정에서 장비 노화와 주기적 점검으로 센서데이터 관측값이 지속적으로 변하는 드리프트 현상이 발견됐다.
이는 시간이 지나면서 데이터와 정답레이블 간 결정경계 패턴이 변해 과거에 학습한 AI 모델의 판단이 현재 시점에서 부정확해지기 때문이다.
KAIST는 전기및전자공학부 황의종 교수팀이 AI가 시간흐름에 따라 데이터 분포가 변화하는 드리프트 환경에서도 정확한 판단을 유지하도록 돕는 새로운 학습데이터 선택기술을 개발했다고 14일 밝혔다.
연구팀은 AI가 데이터를 학습했을 때 모델 업데이트 정도와 방향을 나타내는 그래디언트 개념을 적용해 드리프트 상황에서도 AI가 효과적인 데이터를 선택하는데 도움을 줄 수 있음을 이론 및 실험으로 확인했다.
또 이를 바탕으로 데이터 분포와 결정경계가 변해도 모델을 강건하게 학습시키는 지속가능한 데이터 중심 AI 학습 프레임워크를 제시했다.
학습 프레임워크는 기존 변화하는 데이터에 맞춘 모델 중심 AI 기법과 달리 드리프트의 주요 원인인 데이터 자체를 직접 전처리해 현재 학습에 최적화된 데이터로 바꿔주는 것으로, 기존 AI 모델 종류에 상관없이 쉽게 확장될 수 있는 것이 특징이다.
실제 연구팀은 이 기법으로 실험한 결과 시간에 따라 데이터 분포가 변해도 AI 모델 정확도를 안정적으로 유지함을 확인했다.
황 교수는 “인공지능이 변화하는 데이터에도 성능이 저하되지 않고 유지하는 데에 도움이 되기를 기대한다”고 말했다.
대덕특구=이재형 기자 jh@kukinews.com