'이루다' 논란에...개인정보 보호 민감성 높아졌다

개인정보 비식별조치·동의절차 여부 논란
직원들 수집 데이터 돌려봤는지도 관건

기사승인 2021-01-15 04:30:02

[쿠키뉴스] 구현화 기자 = 20대 대학생으로 설정한 '이루다' AI챗봇을 개발한 스캐터랩이 이루다의 성희롱·편견 발언 등 AI윤리 부재 논란에 이어 개인정보 무단 사용 논란에 휩싸이면서 사건은 일파만파 더 커져가는 모양새다.

카카오톡 대화를 공유하면 상대방이 대화에 관심이 있는지를 알려주는 '연애의 과학'이라는 코너를 운영하면서 이용자들에게 이 대화 데이터가 이루다의 학습에 쓰인다고 제대로 공지하지 않은 것이다. 게다가 개인정보 비식별 조치도 제대로 이뤄지지 않았으며 무단으로 공유되었다는 증언도 나왔다.

이에 대해 스캐터랩은 데이터의 정보처리 미숙과 관련 사과의 입장을 밝혔다. 스캐터랩의 개인정보보호위원회와 한국인터넷진흥원에서는 조사를 진행 중이다.

옛 연인 애칭 나오고, 지명·주소·계좌번호 공유...이용자들 문제제기

이 같은 개인정보 유출 의심은 이용자들이 먼저 제기했다. 이루다와 채팅을 나누다가 전 여자친구나 전 남자친구의 실명이나 애칭이 나온 것을 발견하고, 집주소나 계좌번호가 나오는 등 특정 개인정보가 유출된 것 같다는 의심을 공유했다.

또 일부 비식별화 처리에도 불구하고 특징적인 성적인 농담들도 그대로 나온다고 항의했다. 특히 금지어 항목이 느슨해 성적인 단어 등도 그대로 노출됐다.

특히 이용자들이 자발적으로 카카오톡 대화를 '연애의과학'에 넣는 과정에서 이루다의 학습도구로 쓰인다는 안내가 전혀 나오지 않아 이용자를 기만했다는 비판도 나왔다. 여기에 개발자들이 소스를 공유하는 깃허브에 연애의과학 데이터가 노출되었다는 의혹도 제기됐다.

이에 따라 개인정보위원회는 개인정보보호법의 제15조(개인정보의 수집·이용), 제18조(개인정보의 목적 외 이용·제공 제한), 제22조(동의를 받는 방법) 등과 더불어 가명정보 처리에 관한 특례 준수 여부 등을 들여다볼 예정이다.

개인정보보호법 제15조에 따르면 개인정보처리자는 개인정보의 수집·이용 목적, 수집하려는 개인정보의 항목, 개인정보의 보유 및 이용 기간을 정보주체에게 알려야 하며, 해당 사항이 변경되는 경우에도 이를 알리고 동의를 받아야 한다.

또 제18조와 제22조에 따르면 정보주체의 동의를 받지 않고 제3자에게 제공할 수 없으며, 동의를 받을 때에는 각각의 동의 사항을 구분해 정보주체가 이를 명확하게 인지할 수 있도록 알리고 각각 동의를 받아야 한다.

개인정보 수집·이용 목적, 항목 등은 개인정보위가 고시하는 방법에 따라 명확히 표시해 알아보기 쉽게 해야 하며, 정보주체 동의 없이 처리할 수 있는 개인정보와 동의가 필요한 개인정보를 구분하도록 규정하고 있다.

스캐터랩 개발팀, 개인 비식별화 조치 적절했나?...이용자들 "미흡했다"

먼저 이루다를 개발한 스캐터랩 개발팀은 2019년 개발자들의 코드 공유 허브인 깃허브에 자사의 'KG-CVAE-인공지능 자연어처리(NLP) 연구 모델'을 오픈 소스로 공유했음을 인정했다. 이 과정에서 샘플로 추출한 100건의 데이터가 포함돼 있었음이 확인됐다.

스캐터랩은 해당 데이터에는 대화 중 실명과 숫자를 대체하는 등 자동화 비식별 처리를 하였으나 기계적인 필터링 과정에서도 미처 걸러지지 못했다고 설명했다.

스캐터랩은 "데이터 관리에 더 신중하지 못한 것에 사과를 드린다"라며 "일부 민감할 수 있는 정보가 포함된 대화 패턴이 노출된 점에 대해 진심으로 사과드린다"라고 설명했다.

그럼에도 스캐터랩은 카카오톡 대화내용이 데이터 그대로 나오는 등 '대화 패턴'으로 존재하지 않는다는 것을 분명히 했다. 스캐터랩은 "이루다의 DB는 개별적이고 독립적인 문장DB로 관리되고 있으며, 대화패턴을 통해 대화를 나누는 사람들의 관계나 생활반경 등이 추정되지 않는다"고 강조했다.

또 깃허브에 업로드된 테스트용 데이터는 이루다DB와는 내용과 구성이 다르다고 해명했다. 이루다DB는 비식별화 처리한 개별적이고 독립적인 DB로, 대화단위가 아니라 1억개의 문장으로 구성돼 있다는 것이다. 그리고 학습된 데이터를 대화나 문장의 형태로 저장하지 않고 패턴만을 학습한다고 강조했다.

이 때문에 스캐터랩은 "데이터베이스의 문장들을 조합해 개인을 특정하는 것은 불가능하며, 대화기록을 그대로 가져다 쓰는 것도 불가능하다"는 입장이다.

여기에 숫자와 영문, 이름 등 개인정보에 해당할 가능성이 잇는 정보는 사전 필터링을 통해 삭제했다고 스캐터랩 측은 설명했다. 다만 일부 숫자를 한글로 기재하는 경우 이를 걸러내지 못하는 경우가 있다는 점은 인정했다. 예컨대 '삼성아파트 305동' 이 한글로 '삼백오동'으로 쓰여 있을 경우 이를 인식하지 못했다는 것이다.

또 숫자나 이름이 아닌 애칭이나 별명 등도 이루다에 그대로 들어갈 수 있었다는 것도 이 같은 이유로 알 수 있다. 이 때문에 개인정보의 비식별화 조치가 미흡했다는 비판이 나온다.

'연애의 과학' 개인정보 동의절차는 적절했나?...선택동의 아닌 '포괄동의'

스캐터랩 측은 이용자가 직접 대화 데이터를 집어넣고 결과를 얻는 '연애의 과학'에서 개인정보의 수집, 이용에 대한 이용자의 동의를 받았다고 밝혔다.

이 동의는 가입할 때 받는 포괄동의로서, 자신의 데이터가 다른 곳에 쓰이지 않을 것을 원하지 않는 이들을 위해 '선택' 동의를 받아야 하지만 스캐터랩 측에서 이를 망각했다는 비판이 나온다.

스캐터랩 측은 '연애의 과학' 초기 화면에 로그인 하기 전 '로그인함으로써 이용약관 및 개인정보 취급방침에 동의한다'라고 기재됐다고 설명했다. 이어 이용자가 이용약관이나 개인정보취급방침을 터치하면 전문을 확인할 수 있게 하고 있다고 밝혔다.

이 때 "개인정보취급방법에서 수집된 메시지 정보가 신규 서비스 개발 및 마케팅, 광고에 활용될 수 있다는 점도 같이 설명돼 있다"고 스캐터랩 측은 설명했다.

다만 이용자들은 연애의과학에 대화기록을 넣는 것은 단순히 이 내용을 판명하기 위함이지, 이루다의 DB에 들어가기를 원하는 것이 아니었다며 제대로 정보고지를 하지 않았다는 불만을 제기하고 있는 상황이다.

또 카카오톡 대화는 대화에 참여한 두 명 모두의 동의를 받아야 하는 것이 아니냐는 의문도 제기된다. 대화에 참여한 한 명의 동의만으로는 충분하지 않다는 것이다. 그 대화에서 자신이 밝히기를 원치 않는 개인정보를 담고 있을 수 있기 때문이다.

이에 대해 스캐터랩 측은 "연애의과학이 개인정보의 수집·이용에 동의를 받는 방법은 국내외 서비스들이 채택하고 있는 동일한 방법으로, 내부적으로 법적으로 문제가 없을 것으로 판단했다"고 해명했다.

이어 "대화 당사자 중 한 명이 개인정보 수집·이용에 동의해 자발적으로 대화내용을 연애의과학에 업로드한 것으로 문제가 없을 것으로 보았다"고 전했다.

스캐터랩 측은 연애의과학의 개인정보취급방침에 따라 수집한 데이터를 비식별화 조치를 한 뒤 제한적인 용도로 활용됐으며, AI학습에 데이터가 활용되기를 원하지 않는 이들은 DB삭제 등 DB활용되지 않는 조치를 시행할 것이라고 강조했다.

수집된 정보 직원끼리 돌려봤다?...스캐터랩 측 "확인 중"

연애의 과학에서 수집된 대화 데이터를 직원들끼리 돌려보았다는 내부 폭로가 나온 가운데, 스캐터랩은 이에 대해서도 해명했다.

스캐터랩은 "개인정보에 접근할 수 있는 권한은 지정된 한 명의 담당자(CTO)만이 접근할 수 있게 하고, 별도의 DB로 관리하고 있다"라고 설명했다.

또한 "위와 같은 회사의 방침을 위반한 불미스러운 일이 있었다는 보도가 있어, 진상을 조속히 조사하고 만에 하나 사실로 드러나는 경우 지위고하를 불문하고 관련자들에게 엄중히 책임을 묻겠다"고 밝혔다.

특히 진상조사위원회가 구성돼 조사를 진행하고 있다고 스캐터랩 측은 전했다.

이들은 "조사위원회에서는 스캐터랩 전 팀원이 참여하고 있는 카카오톡의 대화 조사가 완료 단계에 있으며 카카오 단체대화방에서는 해당 내용이 없었다"고 설명했다.

이어 "또 다른 사내메신저 채널 슬랙은 다수의 대화채널이 있는 관계로 계속해서 조사를 진행중인 상태"라며 "조사가 마무리되는 대로 조사결과를 투명하게 공개하겠다"고 밝혔다.

한편 정부는 AI 서비스 이용자에 대한 보호와 구제 프로토콜을 만드는 데 착수했다. 방송통신위원회는 이번 이루다가 촉발한 논란에 따라 AI 서비스 이용자 보호를 위해 규범과 제도를 구체화할 예정이다.

앞서 2019년 11월 차별금지와 인간존엄성 보호 등을 골자로 한 '이용자 중심의 지능정보사회를 위한 원칙'을 토대로, 이를 실천할 구체적 사례와 방법 등을 업계와 공유할 계획이다. 특히 이용자에게 피해를 야기한 AI 서비스의 책임 소재 및 권리구제 절차 등을 포괄하도록 기존 법체계를 정비한다.

이를 위해 방통위는 지난해 1월 정보통신정책연구원(KISDI) 내에 지능정보사회 정책센터를 설립하고 지난해 9월부터 센터 내 법제 연구반을 구성해 운영 중이다.

kuh@kukinews.com