마이크로소프트, 질문에 답하고 그려주는 '비주얼챗GPT' 선보여

'깃허브'에 비주얼기초모델 논문, 자료 공개
기존 시각 모델 통합..피드백 반영해 시각적 효과로
  • 등록 2023-03-12 오후 4:58:38

    수정 2023-03-12 오후 4:59:15

[이데일리 강민구 기자] 마이크로소프트(MS)가 언어를 이해해 답해주고, 그려주고, 수정해 시각화 이미지로 만들어주는 새로운 챗봇 모델을 공개했다.

MS는 최근 오픈소스 공유 플랫폼 ‘깃허브(GitHub)’에 ‘비주얼챗GPT’ 모델을 공개했다. 여러 시각화 모델을 통합한 비주얼기초모델(Visual Foundation Model)의 도움으로 ‘챗GPT’가 사용자가 원하는 시각적 방식으로 표현하도록 돕도록 했다.

‘비주얼챗GPT’ 구현 사례.(자료=‘Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models’ 논문 일부 갈무리)
사용자가 비주얼챗GPT에 이미지를 올리거나 질문을 문자로 입력하면 모델이 해당 이미지와 문자를 분석해 새로운 이미지나 텍스트로 만들어 준다.

가령 사용자가 푸른 옷을 입은 노인의 사진을 올린뒤 “노인이 입은 옷 색깔은 무엇입니까?”라고 물으면 ‘노인이 입은 옷은 파란색입니다.“라고 답해준다. 또는 “그림을 잘 못그리니 사과를 그려달라”라고 하면 사과가 그려진 사진을 만들어준다.

사진 내용 일부도 바꿀 수 있다. 개를 안고 있는 소녀 사진에 대해 “근사하게 보이지만, 개를 고양이로 바꿔달라”고 하면 개만 고양이로 변환된 그림으로 변환한다.

연구진은 “비주얼 기초 모델을 통합해 사용자가 챗GPT와 상호작용할 수 있는 모델을 만들었다”며 “여러 입·출력 모델과 시각적 피드백을 고려한 결과로, 챗GPT가 시각적 역할을 하도록 문을 열어준다”고 설명했다.

‘비주얼챗GPT’ 구현 화면.(자료=GitHub)


이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 가려지지 않는 미모
  • "내가 몸짱"
  • 내가 구해줄게
  • 한국 3대 도둑
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원

ⓒ 이데일리. All rights reserved