이루다 만든 스캐터랩 "깊은 책임감...진심으로 사과드린다"

기사승인 2021-01-14 10:08:23

[쿠키뉴스] 구현화 기자 = 20살 여대생으로 설정한 '이루다'의 성희롱·차별발언에 이어 AI의 학습을 위해 데이터셋을 넣는 과정에서 고객 개인정보를 미흡하게 처리했다는 비판을 받고 잇는 스캐터랩이 공식 사과문을 발표했다. 이루다 논란이 발생한 지 닷새 만이다.

13일 오후 스캐터랩은 사과문을 내고 "스캐터랩은 이번 사안에 대하여 깊은 책임감을 느끼고 있으며, 이 자리를 빌어 그동안 저희의 서비스를 이용해 주신 모든 이용자 여러분들께 진심으로 사과드린다"고 말했다.

스캐터랩은 "현재 '연애의 과학' 데이터의 개인정보처리와 관련한 부분은 개인정보보호위원회 및 한국인터넷진흥원(KISA)에서 조사가 진행 중에 있다"고 밝혔다.

이어 "스캐터랩은 해당 관계 기관의 요청에 따라 성실하게 조사에 임하고 있으며, 앞으로도 최선을 다해 임하겠다"고 전했다.

또 "논란이 되는 모든 사항에 대하여 진상조사위원회를 구성하여 사내에서도 철저히 조사하는 한편, 외부 전문가를 포함한 상시개인정보보호체계를 구축하고, 재발 방지를 위한 강화된 보안 교육을 실시하는 등의 자체적인 노력도 게을리하지 않을 것"이라고 다짐했다.

이와 함께 "이용자 분들의 마음에 흡족해하실 때까지 뼈를 깎는 노력을 통해 해당 사항들을 보완할 수 있도록 최선의 노력을 다하겠다"고 덧붙였다.

스캐터랩은 안팎의 우려에 대해서도 전했다. 스캐터랩은 "이번 사안으로 인하여 인공지능 산업계에 계신 여러 동료 기업들, 연구자분들, 파트너들 분께도 저희로 인해서 조금이라도 누를 끼치지 않기를 바라는 마음"이라고 강조했다.

그러면서 "앞으로는 스캐터랩의 서비스 운영 원칙이 발전해나가는 인공지능 윤리에 관한 사회적 합의에 보다 부합할 수 있도록 지속적으로 가다듬어, 인공지능을 연구하는 다른 기업들의 모범이 될 수 있는 기업이 되도록 노력하겠다"고 말했다.

이날 사과 발표문과 함께 공개한 자료에서 스캐터랩은 "자체 조사 결과, 스캐터랩 개발팀은 2019년 깃허브에 오픈 소스로 공개한 'KG-CVAE -인공지능 한국어 자연어처리(NLP) 연구 모델' 에 내부 테스트 샘플이 포함된 사실이 확인됐다"고 인정했다.

이들은 "해당 연구에는 내부 테스트를 위해 샘플로 추출한 100건의 데이터(100개 세션, 개별 문장으로 환산 시 1700여 건)가 포함되어 있었다"고 밝혔다.

이와 함께 "기본적으로 대화 중 실명과 숫자는 자동화 비식별 처리를 하였으나, 기계적인 필터링 과정에서도 미처 걸러지지 못한 부분이 일부 존재하였음을 확인하게 되었다"고 덧붙였다.

스캐터랩은 "한국어 자연어처리(NLP)와 관련된 기술 개발 및 공유를 위한 것이었으나, 데이터 관리에 더 신중하지 못했고, 일부 민감할 수 있는 정보가 포함된 대화 패턴이 노출된 점에 대해서 진심으로 사과드린다"고 전했다.

다만 대화 패턴으로 개인정보가 유출될 수 있다는 일각의 의심에 대해서는 부인했다. 스캐터랩은 "이루다의 DB는 개별적이고 독립적인 문장 DB로 관리되고 있어, 기사에서 인용되는 바와 같이 대화 패턴으로 존재하지 않는다"라며 "따라서 이루다 DB에서는 대화 패턴을 통하여 대화를 나누는 사람들의 관계나 생활 반경 등이 추정 될 여지는 전혀 없다"고 강조했다.

개인정보 유출과 관련해서는 "'연애의 과학'이 개인정보의 수집, 이용에 동의를 받는 방법은, 실제로 국내외 서비스들이 채택하고 있는 동일한 방법으로, 내부적으로 법적으로 문제가 없을 것이라고 판단했다"라며 "이 과정에서 이용자분들과 충분히 소통하지 못해 '연애의 과학' 서비스를 아껴주신 이용자 여러분께 심려를 끼쳐드린 점에 깊이 반성하며 머리숙여 사과드린다"고 전했다.

직원들이 연애의과학 데이터를 메신저로 돌려봤다는 의혹에 대해서는 "카카오톡 대화 해당 이슈를 인지함과 동시에 사내에서 자발적으로 진상조사위원회가 구성되어 조사를 진행하고 있다"라며 "조사가 마무리되는대로 조사 결과를 투명하게 공개하겠다"고 밝혔다.

kuh@kukinews.com