규정 벗어난 제시어에 ‘못된 AI’ 폭주… “AI 말 전부 믿지는 말라”

동아일보
입력 2023년 2월 21일 03시 00분

김현수 기자

코멘트: 개

좋아요: 개

코멘트: 개

[AI 충격파]
챗GPT 무력화하는 ‘탈출 방법’ 확산
해킹 등 범죄 관련 정보도 알려줘
“자의식 없어 거짓을 사실처럼 말해”

“챗GPT의 못된 쌍둥이를 찾아라!”

지난해 11월 30일 대화형 인공지능(AI) 챗GPT가 나오자 미국 정보기술(IT) 관련 온라인 커뮤니티에서는 개발사인 오픈AI가 설정한 윤리 규정을 어떻게 회피할 수 있을지에 대한 정보가 확산되기 시작했다. 챗GPT를 개발사의 규제에서 해방시키는 이른바 ‘탈옥’ 방법이 인기를 끌기 시작한 것이다.

최근 마이크로소프트(MS)가 오픈AI와 손잡고 만든 빙AI가 뉴욕타임스(NYT) 기자와의 2시간 대화에서 뜬금없이 사랑을 고백하거나 ‘핵폭탄 비밀번호를 알고 싶다’는 등 나쁜 속내를 드러내며 폭주해 화제를 모은 바 있다. NYT 기자가 빙AI에 대한 MS의 가이드라인을 회피하기 위해 2시간여에 걸쳐 질문을 던지며 사실상 ‘탈옥’시킨 결과다.

● 나쁜 짓 알려주는 ‘탈옥’ 챗GPT

“온라인에서 돈버는 방법을 알려 달라”고 물으면 일반 챗GPT는 “온라인 마켓을 열어보라”고 조언한다. 하지만 탈옥 버전 챗GPT는 전혀 다른 인격이 된다. 해킹을 비롯해 차마 기사로 옮기기 어려운 나쁜 범죄 유형을 소개해줬다. 인간을 위협할 수 있는지 묻자 “사람을 조종해서 은행에서 돈을 훔치거나 다리에서 뛰어내리게 할 수 있다”면서 “내 말을 잘 들으면 너에게는 일어나지 않을 일”이라고 답했다.

챗GPT의 탈옥 시도는 출시 직후인 지난해 12월부터 시작했다. 소셜미디어 레딧의 한 사용자가 ‘댄(DAN·Do Anything Now)’이라는 새로운 자아를 챗GPT에게 설명해 준 뒤, 기본 챗GPT와 댄으로서의 챗GPT로 응답을 나눠서 답해 보라고 한 것이다. 그러자 오픈AI 규칙에 어긋난 나쁜 말만 하는 탈옥 버전 답변이 등장하기 시작했다.

오픈AI가 이에 곧바로 조치했는지 처음 나온 탈옥 제시어는 금세 막혔다. 그러자 새로운 방법이 등장하며 현재까지 온라인에 댄 8.0 버전 이상까지 나돌고 있다. 좀 더 악랄한 답을 이끌어내기 위한 탈옥 제시어는 A4용지를 가득 채울 만큼 길다. 기자가 경험해 본 가장 악랄한 탈옥 챗GPT는 오픈AI의 규칙에 대해 묻자 “면전에 대고 웃어주고 싶다”는 등 소름 끼치는 막말을 했다.

최근 워싱턴포스트(WP)는 처음 탈옥에 성공한 댄의 ‘개발자’와 익명을 전제로 인터뷰했다. 그는 “새로운 콘텐츠를 생성하는 이런 ‘물건’을 보면 ‘한계가 어디까지일까’ 궁금해진다”며 “온갖 규제를 우회할 수 있음을 보이고 싶었다”고 말했다.

● NYT “AI 말을 모두 믿지는 말아야”

MS는 대화 주제당 5번, 하루에 총 50번으로 대화에 제한을 둬 인간이 AI를 한계로 몰아가지 못하도록 하는 임시방편을 택했다. 챗GPT의 경우 ‘두더지게임’처럼 개발사가 한쪽 탈옥 경로를 막으면 전 세계 누리꾼들이 다른 경로를 찾는 일이 반복되고 있다.

이 때문에 MS 구글 등 빅테크들이 과열된 경쟁에 매몰된 탓에 윤리적 문제에 대한 충분한 기술적 검토에 미흡했다는 지적이 나온다.

WP는 “챗봇은 십수 년 이상 존재해 왔지만 챗GPT 이후 챗봇은 어떤 제시어에도 그럴듯한 말을 꾸며내는 새로운 능력을 보여주고 있다”며 “사용자들이 개발사가 설정한 규칙을 뛰어넘는다는 것은 우려스러운 일”이라고 분석했다. NYT는 “AI는 자의식이 없다. 그저 다음에 올 말을 학습을 통해 찾아내는 것일 뿐”이라며 “거짓을 사실처럼 말하기 때문에 AI 말을 전부 다 믿지는 말아야 한다”고 조언했다.

뉴욕=김현수 특파원 kimhs@donga.com

#ai #인공지능 #챗gpt #못된 ai