아마존에서 판매 중인 챗GPT를 이용해 작성한 것으로 추정되는 책. 글의 첫머리에 ‘AI 언어 모델로서’라고 쓰여 있다.    /인터넷 캡처
아마존에서 판매 중인 챗GPT를 이용해 작성한 것으로 추정되는 책. 글의 첫머리에 ‘AI 언어 모델로서’라고 쓰여 있다. /인터넷 캡처
생성 인공지능(AI)이 만든 ‘가비지(쓰레기) 데이터’가 인터넷 공간을 오염시킬 수 있다는 우려가 현실화하고 있다. 오픈AI의 챗봇 ‘챗GPT’와 같은 생성 AI를 활용해 수준 이하의 책을 찍어내거나 소셜미디어, 쇼핑몰 등에 거짓 리뷰를 작성하는 사례가 늘고 있다.

5일 업계에 따르면 최근 해외 AI 관련 커뮤니티에선 ‘AI 언어 모델로서(As an AI language model)’라는 문구가 화제다. 챗GPT에 금지된 질문을 하거나 답하기 어려운 주관적인 의견을 요청할 때 답변 서두에 쓰이는 문구다. 엉뚱하게 이 문구가 쇼핑몰의 리뷰나 게시판 댓글 같은 곳에서 발견되는 빈도가 늘고 있다.

미국의 정보기술(IT) 전문 매체인 더 버지는 한 보안 엔지니어가 발견한 아마존의 리뷰를 예로 들었다. 리뷰에는 “AI 언어 모델로서 이 제품을 개인적으로 사용하지 않았지만, 기능과 고객 리뷰를 바탕으로 자신 있게 5점을 줄 수 있습니다”라고 적혀 있다. 한 핀란드의 전자제품 매장 웹사이트에는 영어를 핀란드어로 번역하다 실패한 흔적이 남았다. 상품 설명에 ‘미안하지만, AI 언어 모델로서 문맥 없이 이 문구를 번역할 수 없으니 추가 정보를 달라’는 문구가 등장한다.

생성 AI를 활용해 대량으로 책을 찍어내는 사례도 나왔다. 아마존 온라인 서점에서 판매 중인 한 책에서 ‘AI 언어 모델로서’라는 구절이 발견됐다. 이 책의 저자는 올해 2월부터 3개월 동안 AI, 파이선, 데이터 사이언스 등 기술 관련 서적을 40권가량 발간했다. 더 버지는 “이런 종류의 저급 AI 제품을 판매하는 것은 파렴치하지만 불법은 아니다”고 꼬집었다.

한국어로 된 리뷰나 온라인 글에선 이 같은 생성 AI의 ‘흔적’이 아직 드물지만 안심하긴 이르다는 게 업계의 설명이다. 한 IT 기업 관계자는 “챗GPT의 한국어 실력이 빠르게 늘고 있다”며 “국내 기업들도 한국어 특화 초거대 AI를 준비하고 있는 만큼 곧 이런 문제가 수면 위로 떠오를 것”이라고 말했다.

‘AI 언어 모델로서’란 문구는 AI가 글을 썼다는 사실을 드러내는 일종의 ‘인장’이다. 이 같은 문구가 인위적인 방법 등으로 삭제된 글은 더 위험하다고 업계는 평가했다. 생성 AI를 통해 작성된 글이 얼마나 빠른 속도로 온라인 공간을 차지하고 있는지 누구도 알 수 없기 때문이다. 생성 AI의 발전에 따라 사람들이 온라인 공간에서 만나는 다른 사람을 ‘봇’으로 의심하는 일이 늘었다는 게 더 버지의 지적이다.

챗GPT와 같은 대규모 언어 모델(LLM)은 참과 거짓을 따지지 않는다. 주어진 텍스트에 가장 잘 어울리는 단어를 나열하는 방식이다. 더 버지 관계자는 “생성 AI의 ‘환각’ 문제가 계속되는 한 AI로 만든 콘텐츠에 대한 의심이 계속될 수밖에 없다”며 “장기적으로 AI의 성능에도 영향을 미칠 것”이라고 했다. 양질의 콘텐츠를 활용해 AI 모델을 고도화해야 하는데 AI가 만든 불량 데이터를 이용할 경우 성능이 떨어지게 된다.

AI가 만든 콘텐츠를 찾아내는 AI도 등장했지만 갈 길이 멀다. 오픈AI는 지난 1월 AI가 쓴 글을 찾아내는 ‘클래시파이어’를 공개했지만 식별 성공 확률은 26%에 그쳤다.

이승우 기자 leeswoo@hankyung.com