[쿠키뉴스] 구현화 기자 = 개인정보 과도 수집 수집목적 외 이용, 14세 미만 아동정보 수집, 개인정보 파기 위반, 개인정보 처리 규정 위반...
인공지능 챗봇 '이루다' 운영사인 스캐터랩에 대해 적용된 다수의 개인정보보호법 위반 혐의다. 20대 여대생을 형상화한 AI챗봇 이루다 개발과 관련 이용자에게 해당 사실을 명확하게 고지하지 않고 데이터를 수집했고, 카카오톡 데이터를 가명처리하지 않은 채 공개했다.
개인정보보호위원회는 28일 제7회 전체회의를 열고 챗봇 ‘이루다’ 개발사 스캐터랩에 대해 총 8가지 개인정보법 위반 혐의로 총 1억 330만원의 과징금과 과태료 등을 부과했다. 개인정보위는 스캐터랩이 개인정보보호법 18조 1항·21조 1항·23조 1항·28조 2항·39조 6항과 64조·66조를 위반한 것으로 봤다.
스캐터랩은 신규 서비스 개발이라는 데이터 수집 목적에 이루다가 해당된다고 해명했지만 개인정보위는 이를 받아들이지 않았다. 또 학습DB와 응답DB를 가명처리했다는 주장에 대해서도 응답DB의 경우 대화 내용의 개인정보에 처리를 하지 않았다고 봤다.
스캐터랩 "사용자 동의 받았다...비식별처리 노력도 알아달라"
스캐터랩은 개인정보위 전체회의에 참석해 이루다의 학습 및 운영이 개인정보 수집 목적으로 '신규 서비스 개발'에 이용된다는 동의를 받았다고 주장했다.
스캐터랩 측의 마경태 태평양 변호사는 "이루다 학습 및 운영이 개인정보 수집 목적에 해당되지 않는다"라며 "개인정보가 신규 서비스 개발에 이용된다고 동의를 받았고, 이루다 학습 및 운영은 동일한 신규 서비스에 포함돼 목적 외 이용에 해당되지 않는다"라고 해명했다.
그러면서 "대화분석 알고리즘을 고도화하는 과정에서 자연스럽게 만들어진 서비스로 빅데이터, 인공지능에 기반한 서비스 개발을 위해 기존 데이터를 수집한 사례는 흔하다"라며 신문고 민원 서비스, 119 접수 서비스 등을 예시로 들었다.
또 "법원이 트위터에 입력된 정보 전부를 진실이라 담보할 수 없어 개인정보가 포함될 수 있지만 전체를 개인정보라 할 수 없다고 판시한 바 있다"라며 "대화 내용 포함해 입력된 정보들이 진실인지 담보 못하므로 개인의 정보로 볼 수 없다"고 말했다.
이어 이루다를 학습시킨 'AI학습DB'와 이루다의 '응답DB' 모두 가명화하고, 후자는 특히 익명 정보라 할 수 있을 정도로 가명화 철저히 처리했다고 주장했다.
마 변호사는 "AI 학습 DB는 식별자 모두 암호화 처리하고 성별, 직업 등 관계적 정보밖에 안 남아 개인 식별이 불가능하고, 응답 DB는 발화 문장만 저장된 채 어떤 맥락도 없이 배열돼 개인 식별이 불가능하다"고 말했다.
특히 개인 식별정보가 포함 안 되도록 수차례의 가명처리를 진행했고, 이를 위해 별도의 AI 모델까지 개발했다고 설명했다.
마 변호사는 "발화 데이터 보면 문제될 소지 된 게 700만 대화 중 3건 4건 정도"라며 "이는 굉장히 낮은 확률로, 반대로 굉장히 높은 수준으로 비식별처리 한 것으로 7가지 절차를 거치고, 비식별화 하기 위해서 독자적인 AI 모델 개발할 정도로 비식별 처리에 전념을 했다"고 강조했다.
샘플 대화가 깃허브에 업로드된 것과 관련해선 "모든 숫자를 치환했지만 일부 애칭과 오타 등이 삭제되지 않았다. 이는 일부이며 이는이용자 정보인지, 가상의 정보인지 확인 안 돼 개인정보로 단정 불가능하다"라고 변론했다.
만 14세 미만 개인정보 수집과 관련해서는 "이루다의 경우 페북 메신저로 수집되어 페북은 14세 미만 이용이 불가능하기 때문에 그 나이 이상 이용자가 이용할 것으로 간주해 고려할 필요 없었다"고 설명했다.
또 "텍스트앳과 대화의 과학은 아동이 성인 승인 없이 설치 못하게 돼 있다"라며 "스캐터랩은 만14세 미만 아동 차단 위해 에이지게이트도 도입했고, 만14세 미만 이용자 차단해나갈 계획"이라고 강조했다.
특히 스캐터랩은 소규모 스타트업이고, 충분한 선례 없이 일부 미흡한 점 발생했다는 점 참작을 호소했다.
마 변호사는 "수집한 정보 중 민감정보 있는지 의문이나 설령 민감정보 해당된다 하더라도 충분히 노력했다는 점을 고려해달라"라고 말했다.
이어 "탈퇴한 이용자 정보와 관련해 이루다 DB는 가명정보로서 파기 대상이 아니라는 점과, 파기 과정 위해서는 재식별이 필요한데 재식별 위험 감수하는 게 부적절하다는 점 고려해달라"고 강조했다.
개인정보위 "스타트업 참작했지만...개인정보 비식별 처리 안 돼"
개인정보위 위원들은 법에 어두울 수 있는 기술 스타트업임을 참작하더라도 개인정보 동의 절차와 카카오톡 개인정보 비식별처리가 안 된 점 등 미비한 점을 지적했다.
백대용 개인정보위 위원은 "스타트업에 안타까운 부분이 있다"라며 "스타트업을 하더라도 분쟁 이슈를 고려해야 한다"라며 "비즈니스 모델을 개발하는 과정에서 투자 유치 등에 치중하다 보니 먼저 이용하게 하고 나중에 체크하자는 부분이 있을 수 있다"고 말했다.
그러면서 "이 사건은 이루다 관련 문제 이전에 AI 쪽 계신 분들의 마인드 전환이 필요하다"라며 "(마 변호사가 언급한) 트위터 관련 판례도 개인정보 관련 내용이 혼재돼 있기 때문에 법 적용되는 것이 맞다고 나온다"고 강조했다.
백 대표는 "(정보들 전체를 개인정보로 볼 수 없는 점을 인정해) 많은 부분을 무혐의 처리했지만, 그렇다고 해서 그 판결이 개인정보법 적용 자체가 배제된 것은 아니다"라며 "일반인 입장에서 카톡 대화를 줬는데 이런 데 쓰일 거라고 예측이 쉽지 않다"고 비판했다.
지성우 위원은 "해외에서도 왜 (스캐터랩 같은 사례가) 안됐는지 생각해 본 적 있느냐"라고 묻고는 "데이터 수집 단계에서 개인정보 보호 문제, 아동청소년 보호 문제 등을 서비스 전에 검토했으면 어떨까 싶다"라고 안타까움을 전했다.
이어 "외국의 대화서비스들이 상대방과 나눈 대화를 모조리 제공해서 만들어진 서비스인가"라며 "특히 아동청소년 데이터까지 무분별하게 모은 것은 문제될 수 있다"라고 지적했다.
염홍열 위원도 "이용자 입장에서는 민감한 내용이 다 포함될 수 있다"라며 "사용자 대화 내용을 바로 추출하지 않고 학습한 결과에 가공의 데이터 세트를 만들어 응답할 때 발화를 해주는 방식이 더 나았을 것"이라고 비판했다.
이에 대해 김종윤 스캐터랩 대표는 "앞으로도 다른 유형의 모델을 어떻게 만들지, 특히 응답DB 비식별 처리를 어떻게 할지 고민"이라 "앞으로 일반적 문장이라 하더라도 어떤 방식으로든 변형, 생성하거나 하는 여러 테크닉을 고민 중이다"라고 해명했다.
특히 "가명처리가 미비했던 부분 있었기 때문에 대화 내용 가명화 고도화하려는 계획 있다"라며 "사람 이름을 가명화하는 건 사람에겐 쉽지만 기술적으론 쉽지 않고, 기기 입장에서 쉽게 알아보기 어려워서 고도화 작업이 많이 필요하다"는 입장도 밝혔다.
김 대표는 대화 모델에 집중한 이유도 언급했다. 그는 "해외는 레딧이라는 인터넷 게시판으로 학습을 많이 하는데, 그 데이터로 학습 시킨 모델 사용해보면 친구랑 대화하는 느낌이 아니다"라며 "사람 같은 느낌 주기 위해서는 사람 간 대화 데이터로 학습할 수밖에 없다는 게 저희 생각"이라고 설명했다.
데이터가 민감한 정보임을 고려해 상응하는 조치들이 있어야 한다는 지적에 대해서는 "정형 데이터 같은 경우 개인정보 처리가 쉽지만, 비정형 데이터는 개인정보 얼마나 있는지 확인 어렵다"라며 "기술적 방법론이 완벽히 성립되지 않은 상태로 남아있는데 그런 부분에 대해 저희도 고민이 많고 선례를 만들어가고 싶은 생각도 있다"고 밝혔다.
김 대표는 스캐터랩이 사회적 물의를 일으키고 미숙했던 점에 대해서는 인정하고 사과했다. 그는 "저희를 포함한 많은 스타트업들이 법은 아무래도 어렵기 때문에 앱 기획 및 서비스 과정에서 다른 서비스 기획 내용들을 많이 참고하는데, 그런 사례가 없어 저희가 안이하게 생각한 부분이 있다"라고 언급했다.
그러면서 "저희가 부족했던 것이 분명히 있어 죄송하다"라며 "이번 기회로 개인정보보호법 이해가 높아졌고, 가장 높은 수준의 컴플라이언스와 가장 높은 가명화 수준을 만들어 나가겠다"라고 거듭 사과했다.
윤종인 위원장은 "안 가본 길을 가는 것이어서 많은 고민이 논의됐고 조사도 100일간 진행됐다"라며 "인간 중심 기술에 더 많은 노력 기울여주기 바란다"고 끝맺었다.
kuh@kukinews.com