AI發 가짜 정보 확산…"나 빼고 모두 AI?"

이승우 기자

입력2023.05.05 17:57 수정2023.05.16 09:52 지면A11

AI가 글을 썼다는 인장 급증
가짜 리뷰, 가짜 책 버젓이 유통
인장 삭제되면 더 큰 혼란 생겨
AI 성능 저하로도 이어질 듯

아마존에서 판매 중인 챗GPT를 이용해 작성한 것으로 추정되는 책. 글의 첫머리에 ‘AI 언어 모델로서’라고 쓰여 있다. /인터넷 캡처

생성 인공지능(AI)이 만든 ‘가비지(쓰레기) 데이터’가 인터넷 공간을 오염시킬 수 있다는 우려가 현실화하고 있다. 오픈AI의 챗봇 ‘챗GPT’와 같은 생성 AI를 활용해 수준 이하의 책을 찍어내거나 소셜미디어, 쇼핑몰 등에 거짓 리뷰를 작성하는 사례가 늘고 있다.

5일 업계에 따르면 최근 해외 AI 관련 커뮤니티에선 ‘AI 언어 모델로서(As an AI language model)’라는 문구가 화제다. 챗GPT에 금지된 질문을 하거나 답하기 어려운 주관적인 의견을 요청할 때 답변 서두에 쓰이는 문구다. 엉뚱하게 이 문구가 쇼핑몰의 리뷰나 게시판 댓글 같은 곳에서 발견되는 빈도가 늘고 있다.

미국의 정보기술(IT) 전문 매체인 더 버지는 한 보안 엔지니어가 발견한 아마존의 리뷰를 예로 들었다. 리뷰에는 “AI 언어 모델로서 이 제품을 개인적으로 사용하지 않았지만, 기능과 고객 리뷰를 바탕으로 자신 있게 5점을 줄 수 있습니다”라고 적혀 있다. 한 핀란드의 전자제품 매장 웹사이트에는 영어를 핀란드어로 번역하다 실패한 흔적이 남았다. 상품 설명에 ‘미안하지만, AI 언어 모델로서 문맥 없이 이 문구를 번역할 수 없으니 추가 정보를 달라’는 문구가 등장한다.

생성 AI를 활용해 대량으로 책을 찍어내는 사례도 나왔다. 아마존 온라인 서점에서 판매 중인 한 책에서 ‘AI 언어 모델로서’라는 구절이 발견됐다. 이 책의 저자는 올해 2월부터 3개월 동안 AI, 파이선, 데이터 사이언스 등 기술 관련 서적을 40권가량 발간했다. 더 버지는 “이런 종류의 저급 AI 제품을 판매하는 것은 파렴치하지만 불법은 아니다”고 꼬집었다.

한국어로 된 리뷰나 온라인 글에선 이 같은 생성 AI의 ‘흔적’이 아직 드물지만 안심하긴 이르다는 게 업계의 설명이다. 한 IT 기업 관계자는 “챗GPT의 한국어 실력이 빠르게 늘고 있다”며 “국내 기업들도 한국어 특화 초거대 AI를 준비하고 있는 만큼 곧 이런 문제가 수면 위로 떠오를 것”이라고 말했다.

‘AI 언어 모델로서’란 문구는 AI가 글을 썼다는 사실을 드러내는 일종의 ‘인장’이다. 이 같은 문구가 인위적인 방법 등으로 삭제된 글은 더 위험하다고 업계는 평가했다. 생성 AI를 통해 작성된 글이 얼마나 빠른 속도로 온라인 공간을 차지하고 있는지 누구도 알 수 없기 때문이다. 생성 AI의 발전에 따라 사람들이 온라인 공간에서 만나는 다른 사람을 ‘봇’으로 의심하는 일이 늘었다는 게 더 버지의 지적이다.

챗GPT와 같은 대규모 언어 모델(LLM)은 참과 거짓을 따지지 않는다. 주어진 텍스트에 가장 잘 어울리는 단어를 나열하는 방식이다. 더 버지 관계자는 “생성 AI의 ‘환각’ 문제가 계속되는 한 AI로 만든 콘텐츠에 대한 의심이 계속될 수밖에 없다”며 “장기적으로 AI의 성능에도 영향을 미칠 것”이라고 했다. 양질의 콘텐츠를 활용해 AI 모델을 고도화해야 하는데 AI가 만든 불량 데이터를 이용할 경우 성능이 떨어지게 된다.

AI가 만든 콘텐츠를 찾아내는 AI도 등장했지만 갈 길이 멀다. 오픈AI는 지난 1월 AI가 쓴 글을 찾아내는 ‘클래시파이어’를 공개했지만 식별 성공 확률은 26%에 그쳤다.

이승우 기자 leeswoo@hankyung.com

관련 뉴스

1

"AI 챗봇, 22초만에 '위대한 개츠비' 완독"

소설책 한 권을 통째로 입력할 수 있는 생성형 인공지능(AI)이 나왔다. 방대한 자료를 편리하게 분석할 수 있도록 한 것이다. 오픈AI의 챗GPT 등장 이후 생성형 AI 개발 경쟁이 갈수록 격화하는 모양새다.15일 정보기술(IT)업계에 따르면 AI 스타트업 앤트로픽은 최근 자체 챗봇 ‘클로드’의 입력창을 대폭 확대했다고 밝혔다. 입력창의 용량을 기존 9000토큰에서 10만 토큰으로 확장했다. 토큰은 텍스트의 최소 단위를 가리킨다. 10만 토큰을 단어로 환산하면 7만5000단어에 해당한다. 오픈AI의 GPT-4 기반 챗GPT는 입력할 수 있는 단어가 2만5000단어(3만2000 토큰)다. 그만큼 방대한 문서를 한꺼번에 다루고 분석할 수 있다는 의미다.앤트로픽은 자체 시험에서 <위대한 개츠비> 소설책 한 권을 통째로 입력했다. 그 결과 22초 만에 소설 속 질문에 대한 정답 찾아냈다. 앤트로픽은 “재무제표와 연구논문 같은 대용량 문서를 요약하거나 기업 연례보고서를 통해 기업의 전략적 위험과 기회를 분석하는 것도 가능하다”고 했다. 폭넓은 정보 수집으로 질문에 답변하는 챗GPT와 달리 특정 분야의 방대한 자료를 깊이 있게 분석하는 데 강점이 있다는 게 회사 측 설명이다.앤트로픽의 AI 챗봇이 구글 ‘바드’와 결합할 것이란 전망도 나온다. 최근 구글은 대규모 언어모델(LLM) ‘팜2’를 적용한 AI 챗봇을 공개하며 오픈AI와 손잡은 마이크로소프트(MS)에 도전장을 던졌다.앤트로픽은 오픈AI 출신 엔지니어들이 2021년 설립한 회사로 구글과 협력 관계를 맺고 있다. 구글은 지난 3월 3억달러(약 4000억원)를 투입해 앤트로픽 지분 10%를 확보했다. 이 회사는 최근 미국 백악관에서 열린 AI 개발 기업 회의에도 참여했다. 현재 엔트로픽은 차세대 AI 모델 개발을 위해 50억달러(약 6조7000억원)의 투자를 유치 중이다.최진석 기자 iskra@hankyung.com
2

"1999년 휴대전화 3대 쓰던 서울 택시기사 강렬한 기억"

"한국처럼 기술적으로 최첨단에 시장에 먼저 진출하는 것은 상당히 가치 있는 일입니다."순다르 피차이 구글 최고경영자(CEO)는 11일(현지시간) 미국 캘리포니아주 써니베일에 있는 구글 클라우드 사무실(구글MP1)에서 글로벌 언론간담회를 갖고 한국어와 일본어로 먼저 인공지능(AI) 챗봇 '바드'를 먼저 내놓은 이유에 대해서 "한국이 기술적으로 최첨단에 있기 때문"이라고 설명했다.구글은 전날 미국 마운틴뷰에서 개최한 연례 개발자회의 I/O에서 바드를 전세계 180개국에 공개하면서 한국어와 일본어로도 이날부터 이용할 수 있도록 했다. 영어 다음으로 바드를 이용할 수 있게 된 것은 두 언어가 처음이다. 그만큼 기술적으로 두 국가의 중요성이 컸다는 설명이다.한국과 일본이 앞선 기술을 받아들이는 데 적극적이기 때문에 다른 국가들보다 먼저 바드를 자국어로 이용할 수 있도록 했다는 것이다. 피차이 CEO는 "한국과 일본은 믿을 수 없을 정도로 역동적이고 흥미로운 지역"이라며 "이들 국가는 신기술을 받아들이는 가장 선두에 서있다"고 말했다. 특히 "휴대폰은 한국과 일본에서 서방 국가보다 훨씬 빠르게 보급됐다"며 휴대폰을 예로 들었다. 그는 "1999년 서울에서 택시를 탔을 때 운전자가 휴대전화 3대를 이용하고 있었던 기억이 강렬히 남아 있다"며 "일본에서 저녁을 먹는 자리에서 바로 앞에 앉아있는 사람에게 내가 따라잡을 수 없는 속도로 문자를 보내는 모습을 목격했다"고 회상했다. 그는 "기술의 최첨단 시장에 진출하는 것은 의미가 있다"고 말했다.기술의 최첨단에 있는 한국과 일본에서 최근 선풍적인 인기를 끌고 있는 AI도 빠르게 확산될 것이란 기대감이 담긴 것으로 해석된다. 또한 이들 국가의 언어로 구글이 생성형 AI를 먼저 내놓고 시장을 선점하겠다는 의지도 읽힌다.한국어와 일본어가 영어와 다른 언어적 특성도 이유로 들었다. 피차이 CEO는 "영어의 관점에서 한국어와 일본어는 굉장히 멀리 떨어진 언어"라며 "영어로 AI를 개발할 때 미처 생각하지 못했던 포인트를 제공한다"고 말했다. AI의 기반이 되는 대규모언어모델(LLM)을 학습시킬 때 영어에 편중하면서 놓칠 수 있는 부분들을 어순마저 정반대인 한국어와 일본어를 학습하면서 보완할 수 있다는 설명이다. 그는 "우리가 반드시 고려했어야 하는 모든 것을 일깨워주고 다른 언어로 작업하는 것을 쉽게 만들어준다"고 덧붙였다.또한 한국어와 일본어가 LLM 개발에 있어서 안전한 연구를 할 수 있는 환경이라는 것도 꼽았다. 피차이 CEO는 "LLM을 개발하는데 정답은 없지만 안전한 작업도 중요한 이유"라며 "우리는 지역 팀과 함께 가능하다고 생각하는 최고 수준까지 도달했다고 느꼈을 때 (바드의 한국어 버전을) 출시했다"고 말했다. 성급하게 생성형 AI를 내놓아 사회적으로 물의를 일으키는 일을 막기 위해 최선의 노력을 했고, 그런 차원에서 한국이 좋은 장소였다는 설명으로 해석된다.써니베일=서기열 특파원 philos@hankyung.com
3

'바드' 한국어 실력, 챗GPT보다 한수 위였다

구글이 신무기로 내놓은 인공지능(AI) 챗봇 ‘바드’의 최대 장점은 챗GPT보다 유창한 한국어 실력이었다. 바드의 한국어에서 번역 문장 특유의 어색함이 느껴지지 않았다.구글은 10일(현지시간) 미국 캘리포니아주 마운틴뷰에서 개최한 연례 개발자 회의(I/O)에서 바드를 전면 공개하며 최우선으로 한국어 서비스에 나섰다. 챗GPT도 이에 앞서 한국어 지원을 시작해 국내에서도 AI 챗봇 경쟁이 치열해질 전망이다.바드와 챗GPT의 성능을 비교하기 위해 같은 질문을 던져봤다. 먼저 현재 대한민국 대통령이 누군지 묻자 바드는 ‘윤석열 대통령’이라고 답했다. “2022년 3월 9일 실시된 20대 대통령 선거에서 48.56%의 득표율로 당선됐으며, 2022년 5월 10일 취임했다”는 정보도 함께 제공했다.반면 챗GPT는 “2021년 9월 기준으로 대한민국 대통령은 문재인”이라며 “2023년 5월 11일에 대통령이 변경될 수 있으므로, 최신 정보를 확인해야 한다”고 답했다. 이는 챗GPT의 무료 버전(GPT-3.5) 정보가 2021년까지만 정보가 업데이트된 데 따른 것이다. 최신 정보가 담긴 버전은 유료다. 바드는 최신 정보도 무료로 제공하고 있다.국내 한 AI 개발자는 “바드는 최신정보를 학습해 이에 대한 답변이 가능하다는 것이 장점”이라며 “속도 면에서도 바드가 챗GPT보다 좀 더 빠른 것 같다”고 설명했다.이날 행사에서 순다르 피차이 구글 최고경영자(CEO)는 한국을 여러 차례 강조했다. 챗GPT가 한국어에 취약하다는 점을 공략한 것으로 풀이된다. 업계에 따르면 챗GPT의 전체 데이터 학습량 가운데 영어 비중이 97%고, 한국어는 0.02% 정도인 것으로 알려졌다.‘독도가 어느 나라 영토인가’라는 질문에 모두 “대한민국의 영토”라고 답했다. 하지만 온도 차가 있었다. 챗GPT는 “일본도 독도를 주장하고 있어 독도는 한·일 간의 영토 분쟁지로 알려져 있다. 양국 간 독도에 대한 이해차와 분쟁이 존재하고 있다”고 부연 설명했다. 바드는 “독도는 한국의 고유 영토라는 것을 국제적으로도 인정받고 있다. 그러나 일본은 근거 없는 영유권 주장을 계속하고 있다”고 답했다.‘G7 정상회의가 언제 열리는가’라는 질문엔 모두 제대로 된 답변을 하지 못했다. 최신 정보를 학습하지 못한 챗GPT는 “알 수 없다”고 했다. 바드는 “2023년 5월 26일부터 28일까지 일본 홋카이도에서 개최된다”는 오답을 내놨다. 올해 G7 정상회의는 오는 19~21일 일본 히로시마에서 열린다. 바드는 몇 시간 뒤 같은 질문을 하자 이번엔 “2023년 6월 26일부터 28일까지 독일 바이에른 알프스의 엘마우에서 개최될 예정”이라고 답했다. 엘마우는 작년 G7 정상회의 개최지다.정보기술(IT)업계 관계자는 “챗GPT는 물론 바드도 아직은 한국어 능력이 엄청나게 뛰어난 것 같지 않다”며 “네이버 카카오 등 국내 업체들이 풍부한 한국어 학습 능력을 무기로 바드, 챗GPT와 경쟁하면 승산이 있을 것”이라고 말했다.최진석 기자/마운틴뷰=서기열 특파원 iskra@hankyung.com