“좀 더 공개하면 좋을 텐데”…업계가 네이버에 바라는 ‘소버린 AI’

“좀 더 공개하면 좋을 텐데”…업계가 네이버에 바라는 ‘소버린 AI’

- 네이버 약관·정책서 크롤링 비허용 원칙…국감서도 지적
- 하이퍼클로바X도 소스 비공개…“빗장 풀면 스타트업 도움”
- AI 자주권 강조 네이버…“국내 생태계 발전 위한 역할 해야”

기사승인 2024-11-28 06:00:09
네이버 사옥. 연합뉴스 

네이버가 타사에 비해 폐쇄적인 인공지능(AI) 관련 운영 정책을 펼치고 있다는 지적이 나온다. 해외 빅테크에 흔들리지 않는 자주적인 ‘소버린 AI’가 필요하다고 강조하고 있지만, 실제 행보는 다소 아쉽다는 평가다. 

28일 네이버의 이용약관과 검색결과 수집에 대한 정책을 살펴보면 ‘네이버의 사전 허락 없이 자동화된 수단(매크로 프로그램, 로봇, 스파이더, 스크래퍼 등)을 이용해 네이버 서비스에 게재된 게시물 등을 수집하는 행위를 시도해서는 안 된다’고 명시하고 있다. 

이와 함께 타 사이트에서도 검색이 가능하게끔 사용자에게 RSS 허용 여부를 선택하도록 하고 있다고 안내하며, ‘이 같은 규정을 무시하고 데이터를 수집할 시 법적절차를 포함 엄중한 책임을 묻겠다’고 강조하고 있다. 

이같은 약관·정책은 타 사업자의 ‘크롤링’을 원칙적으로 허용하지 않는다는 내용으로 분석된다. 크롤링은 웹상의 유용한 정보를 찾아 특정 데이터베이스(DB)로 수집해오는 작업·기술을 뜻한다. AI 기업에서 AI를 학습·강화 시키는 방식으로 크롤링을 이용해왔다. 

네이버와 달리 카카오의 티스토리나 구글 블로거 등은 이용약관·정책에서 크롤링 금지를 명시하지 않고 있다. 이는 앞서 국정감사에서도 문제로 제기된 바 있다. 박민규 더불어민주당 의원은 지난달 8일 국정감사에서 “타사와 달리 네이버는 복사, 이미지 저장 등이 막혀 있고 크롤링도 차단된 경우가 많다”며 “네이버가 좀 더 오픈된 플랫폼으로서의 AI 관련된 수많은 스타트업들이 접근할 수 있도록 하는 게 대한민국 AI 생태계 발전에 도움이 될 것”이라고 꼬집었다. 

AI 스타트업에서도 네이버가 폐쇄적인 빗장을 풀면 한국어 AI 생태계가 더 풍부해질 것이라고 입을 모았다. 네이버는 20년간 축적된 블로그와 카페, 지식인 등을 통해 막대한 한국어 데이터를 보유하고 있기 때문이다. 

익명을 요구한 A사 관계자는 “네이버가 크롤링을 좀 더 허용하고 데이터를 풀어준다면 AI 스타트업의 한국어 학습에 있어 매우 큰 도움이 될 것은 분명하다”면서 “다만 이걸 공개하는 순간 해외 빅테크에서도 데이터를 모두 가져가게 될 것이라서 네이버에서는 고민이 많을 것”이라고 말했다. 

또 다른 B사 관계자는 “데이터를 무단으로 사용하면 안 되기에 막는 것 자체를 무엇이라 할 수는 없지만 자사 AI 학습에는 활용하면서 타사에는 못 쓰게 하는 것이 문제라고 생각한다”며 “무단 학습을 막는다는 취지면 네이버도 쓰지 않아야 하는 게 맞지 않느냐”고 반문했다. 

최수연 네이버 대표가 지난 11일 단24 컨퍼런스에서 발표를 진행하고 있다. 네이버 

크롤링 비허용뿐만이 아니다. 네이버는 초거대 AI인 하이퍼클로바X도 오픈소스화하지 않고 있다. 오픈소스는 상업적 이용을 포함해 모든 목적에 사용할 수 있도록 소스코드를 일반에 공개하는 것을 말한다. 원본 코드를 외부에 공개해 개발자들이 자유롭게 활용하고, 복제·배포·수정·활용할 수 있도록 하는 것이다. 메타의 대규모언어모델(LLM) ‘라마3.1’이 대표적이다. 국내에서는 LG AI연구원이 최신 AI 모델 ‘엑사원3.0’을 오픈소스로 공개했다. 

한국어와 한국 문화 이해에 있어 뛰어난 성능을 가진 하이퍼클로바X가 오픈소스로 공개 된다면, 국내 AI 스타트업에서도 이를 통해 다양한 서비스와 어플을 개발할 수 있다는 관측이 나온다. 또한 이를 통해 국내 AI 생태계를 활성화해 소버린 AI 구축에 더 힘을 실을 가능성도 있다. 실제 업계에서도 “데이터도 중요하지만 학습에는 또 다른 비용이 들기에 학습이 완료된 AI 모델의 소스코드를 공개하는 것이 국내 AI 생태계에 더 도움이 될 수 있다”고 말했다. 

다만 네이버는 AI 관련 폐쇄적으로 정책을 운영하고 있지 않다고 답했다. 네이버 관계자는 “네이버에서 만들어지는 콘텐츠의 경우 창작자에게 공개 범위를 선택하도록 하고 있다”며 “창작자가 전체 공개로 콘텐츠를 설정할 경우 얼마든지 크롤링이 가능하다”고 말했다. 이어 “비공개된 글은 네이버에서도 AI 학습에 이용하지 않고 있다”고 덧붙였다. 

이와 함께 하이퍼클로바X 오픈소스 여부에 대해서는 “계획이 아예 없다고 말하기는 어렵다”면서 “상황에 따라서 적절한 개발 방식을 선택해 나갈 것”이라고 설명했다. 

전문가들은 네이버가 국내 AI 생태계 발전을 위한 역할을 해야 한다고 강조했다. 이경전 경희대학교 경영학·빅데이터응용학과 교수는 “크롤링을 막는 것은 네이버의 자유”라면서 “학습 데이터를 풀게 될 경우, 많은 AI 스타트업에서 이를 통해 다양한 실험을 해볼 수 있어 큰 도움이 될 것이다. 네이버가 ‘데이터뱅크’를 신설해 막대한 DB를 합법적으로 사고팔게 하는 것도 한 방법”이라고 밝혔다.

김현철 한국인공지능협회장은 “콘텐츠 보상 정책이 마련되지 않은 상황에서 모든 크롤링을 허용할 경우, 무단도용 등의 문제가 발생할 수 있다”면서 “국내 AI 스타트업들은 대다수 해외 AI 모델을 사용하고 있다. 네이버에서 소버린 AI를 강조하고 있는 만큼 AI 모델을 오픈소스화해 국내 AI 생태계를 돕는 쪽으로 방향을 잡길 바란다”고 이야기했다.

이소연 기자
soyeon@kukinews.com
이소연 기자
이 기사 어떻게 생각하세요
  • 추천해요
    0
  • 슬퍼요
    0
  • 화나요
    0
추천기사
많이 본 기사
오피니언
실시간