검색 본문 바로가기 회사정보 바로가기

네이버-카카오, 챗GPT 약점 파고든 한국형 서비스 담금질

네이버·카카오 '한국어 특화' 언어 모델 기반 서비스 개발
'국어 처리 능력' 약한 챗GPT 빈틈 노린 '선택과 집중' 전략

(서울=뉴스1) 오현주 기자 | 2023-02-27 06:30 송고 | 2023-02-27 08:49 최종수정
© News1 DB
© News1 DB

국내 대표 기술기업인 네이버와 카카오가 챗GPT 열풍에 대응해 한국어를 잘하는 생성 인공지능(AI)을 무기로 꺼냈다. 한국어에 약한 챗GPT의 빈틈을 파고들었다.

27일 업계에 따르면, 네이버는 올해 상반기 '서치 GPT'를, 카카오는 연내 버티컬(전문 영역) 초거대 AI 서비스를 공개한다. 또 카카오 자회사 '카카오브레인'은 하반기 AI 챗봇 서비스를 출시한다.
이들 모두 한국어 특화 언어모델을 기반으로 방대한 양의 한국어 데이터를 학습함에 따라 오픈AI가 개발한 챗GPT보다 한국어 처리 능력이 뛰어난 점이 가장 큰 특징이다. 

'챗GPT'는 사람처럼 언어를 바로 알아듣지 못해 데이터를 학습하고 일명 '토큰화'를 거쳐야 한다. '토큰화'는 말을 최소 단위로 잘개 쪼개 컴퓨터가 인식하도록 데이터로 치환하는 과정에서 시작한다. 그 뒤 패턴을 분석하고 적절한 단어를 조합해 의미를 이해한다.

'토큰화'는 언어마다 다르게 적용된다. 영어 데이터는 알파벳 문자에 어울리는 토큰화 기법 '바이트 페어 인코딩'(BPE)이 적합하다. 반면 BPE는 낱말 조합 방식의 한국어에는 적용되기 쉽지 않다.
예를 들어 "나는 축구를 좋아한다"(I love playing soccer)라는 문장을 토큰화하면 영어와 한국어 버전이 각각 다르다.

영어의 경우 'I/love/playing/soccer'로 구성된 4개의 토큰으로 구성된다. 반면 한국어로 토큰화면 '나/는/축구/를/좋-/-아-/하-/-ㄴ-/다' 등 9개까지 나눌 수 있다.

따라서 학습데이터의 97%가 영어인 챗GPT가 한국어를 들었을 때 문맥을 이해하지 못하고 엉뚱한 답변을 내놓을 가능성이 크다.

김명주 서울여대 정보보호학과 교수는 "BPE는 만국 공용으로 쓰이는 형태라 한국 언어에 특화된 게 아니다"라고 말했다.

현재 네이버와 카카오의 생성 AI 전략은 '한국어 특화 AI'로 요약된다. 마이크로소프트(MS)·구글 같은 글로벌 빅테크 기업보다 한발 늦었지만, 가장 잘할 수 있는 것부터 시작한다는 게 업계의 분석이다.  

최대 장점은 한국어에 강한 AI 언어모델을 보유했다는 것이다. 네이버 '서치 GPT'는 한국어 특화 초거대 AI 언어모델 '하이퍼 클로바'가 기반이다. '하이퍼클로바'의 한국어 데이터 세트 용량은 1.96테라바이트(TB)로 GPT-3(챗 GPT의 기반 'GPT-3.5' 전신) 대비 6500배다.

최수연 네이버 대표는 이달 3일 콘퍼런스콜에서 '서치 GPT'에 대해 "한국어로는 가장 고품질의 검색 데이터를 가장 많이 보유했다"며 "생성형 AI의 단점인 신뢰성·최신성 부족, 그리고 해외 업체들의 영어 기반 개발 모델을 한국어로 번역해 발생한 정확성 저하를 해결할 수 있다"고 말했다.

카카오의 역시 한국어 특화 언어모델 '코(Ko)-GPT를 토대로 카카오 대화형 AI와 카카오 브레인 AI 챗봇 '코챗지피티'를 연내 공개한다. 

카카오의 가장 대표적인 서비스인 카카오톡 내 각종 서비스에 한국어 처리 능력이 돋보이는 AI가 적용될 것으로 보인다. 홍은택 대표는 10일 콘퍼런스콜에서 "(카카오톡) 채팅방에서 개인 비서 역할을 하거나, 소상공인이 카카오톡 광고를 할 때 광고 문안(카피)를 작성하는 것이 가능하다"고 말했다.

일각에서는 네이버와 카카오가 장기간 '한국어 특화 AI'를 고집해서는 안 된다는 지적도 나온다. 

업계 관계자는 "외국 자료를 검색할 때처럼 '네이버'보다 '구글'을 더 찾는 경우가 종종 있다"며 "네카오가 계속 한국어 특화만 고집하다 보면, 한국적인 서비스에서만 클 수밖에 없을 것"이라고 말했다.


woobi123@news1.kr

이런 일&저런 일

    더보기