IT 인터넷/SNS

"데이터 그게 돈이 됩니까?"...AI 학습에 '빗장'거는 기업들

임수빈 기자

파이낸셜뉴스

입력 2023.04.20 17:14

수정 2023.04.20 17:14

머스크 "MS, 트위터 데이터 활용해 AI 학습시켜"
래딧 또한 커뮤니티 데이터 활용 학습 유료화 예상
데이터 저작권 중요해졌지만, 광범위한 활용도 필요
일론 머스크 테슬라 최고경영자(CEO). 뉴스1
일론 머스크 테슬라 최고경영자(CEO). 뉴스1

[파이낸셜뉴스] 생성형 인공지능(AI) 경쟁이 구글과 마이크로소프트(MS)를 넘어 글로벌 빅테크 전반으로 확장되면서 AI 학습 데이터를 두고 신경전이 펼쳐지고 있다. 사회관계망서비스(SNS) 및 커뮤니티 기업들이 데이터 유료화 카드를 꺼내고 있는 가운데, 데이터 수집 관련 분쟁은 꾸준히 이어질 전망이다.

MS vs 머스크, AI 데이터 학습 놓고 맞불
마이크로소프트가 19일(현지시간) 홈페이지를 통해 자사 마케팅 플랫폼에서 트위터는 더 이상 지원하지 않는다고 밝혔다. 마이크로소프트 홈페이지 캡처
마이크로소프트가 19일(현지시간) 홈페이지를 통해 자사 마케팅 플랫폼에서 트위터는 더 이상 지원하지 않는다고 밝혔다. 마이크로소프트 홈페이지 캡처

20일 업계에 따르면 MS는 최근 광고주들에게 제공하는 마케팅 플랫폼에서 트위터는 빠진다고 공지했다. MS는 '디지털 마케팅 센서(DMC)'라는 플랫폼을 통해 기업 고객들이 페이스북, 인스타그램, 링크드인, 트위터 등 여러 계정을 한꺼번에 관리하고 고객 메시지에 응답할 수 있는 서비스를 제공해 왔지만, 오는 25일부터 트위터는 제외된다는 것이다.


트위터가 애플리케이션 프로그램 인터페이스(API) 접근을 유료화하는 구독 정책을 전면 시행한다고 밝히면서 갈등이 불거진 것으로 풀이된다. 해외 매체들은 트위터의 API 유료화 정책은 방대한 언어 데이터를 AI 개발사에 뺏기지 않으려는 머스크의 전략이라고 봤다. 실제 머스크는 MS의 결정에 대해 "그들(MS)은 트위터 데이터를 불법 사용해 트레이닝하고 있다"고 트위터로 저격했다.

데이터 지키기에 나선 건 트위터만의 일이 아니다.

미국 유명 온라인 커뮤니티 레딧의 스티브 허프먼 최고경영자(CEO)는 뉴욕타임스(NYT) 인터뷰에서 레딧 내 데이터에 대한 대가를 받아야 한다는 의지를 밝혔다. 레딧의 일평균 방문자수는 5700만명이며, 구글이나 오픈AI, MS 등 AI 회사들에게 좋은 학습처가 될 수 있다는 설명이다. 이에 AI 기업들이 커뮤니티 내 자료를 다운로드하기 위해 API를 사용할 때 비용을 청구할 계획인 것으로 알려졌다.

"원작자 보호" VS "저작권 침해 면책해야"

생성 AI가 고도화됨에 따라 데이터의 중요성은 더 커지고 있다. 학습할수록 AI가 똑똑해지기 때문에 데이터의 필요성이 높아지는 것이다.

결국 AI 개발사와 데이터 기존 저작권자 간 갈등의 골은 깊어지고 있다. 저작권 침해 논란도 첨예해지고 있다. 이미지 제공업체 게티이미지는 이미지 생성 AI 플랫폼 '스테이블 디퓨전' 개발사 스테빌리티 AI를 상대로 소송을 제기했다. 스테이블 디퓨전이 학습 과정에서 게티이미지 데이터베이스(DB) 이미지를 무단 복제했다는 주장이다.

하지만 일각에서는 AI가 데이터를 학습할 때 부당하게 권리를 침해하지 않는 경우는 저작권 침해를 면책해야 한다는 지적도 나온다.
AI 산업 발전을 위해서다. 국회에도 AI 일정 범위 내 저작물 사용을 폭넓게 허용하는 내용이 담긴 '저작권법 전부개정법률안'이 지난 2021년 발의된 상태다.


업계 관계자는 "저작권 문제는 생성AI가 만들어낸 결과물보다 원 저작물을 학습하는 과정에서 불거지고 있다"며 "저작권자의 권리도 중요하지만 산업 발전을 위해선 데이터의 적극적인 활용도 필요해 딜레마가 있다"고 전했다.

soup@fnnews.com 임수빈 기자

fnSurvey