[이미지=게티이미지뱅크]
[이미지=게티이미지뱅크]

[알리바바 클라우드=유니크 송(Unique Song)] 지난해 공개된 오픈AI 사의 ‘달리(DALL-E)’를 시작으로 테크 기업은 멀티모달 AI를 통한 이미지 생성 기술에 주목하고 있다. 여러 빅테크 기업과 테크 스타트업이 잇따라 AI 예술 창작 기술을 선보이고 있으며 지난 10월, 카카오브레인은 자체 개발한 이미지 생성 AI 모델 ‘칼로’를 공개했다.

이러한 멀티모달 이미지 생성 기술을 통해 입력한 제시어를 기반으로 고화질의 이미지를 수 초 내에 ‘창작’해낼 수 있다. 예술과 IT 영역의 경계가 점차 사라지고 있는 오늘날, 멀티모달 이미지 생성 기술이 어디까지 왔고, 어디로 향할지 관심이 집중되고 있다. 

멀티모달 이미지 생성 기술은 텍스트, 오디오를 비롯한 다양한 채널 모달리티(modality)를 기반으로 수집한 정보를 자연스럽고 사실적인 이미지로 재생성한다. 현재 업계는 ‘의미론적 차이(semantic gap)’와 여러 모달리티에 내재된 차이를 극복해야 하며, 논리적이면서 다양한 고해상도 이미지를 어떻게 생성할 것인가라는 당면과제를 마주하고 있다.

지난 2년간, 자연어 처리(GPT), 멀티모달 사전 훈련(CLIP) 등엔 트랜스포머(Transformer) 모델이 적용됐다. 또한, 스타 디퓨전(star-Diffusion) 모델 등장으로 멀티모달 이미지 생성 기술 발전은 가속화되고 있다. 

멀티모달 이미지 생성 기술은 크게 ‘트랜스포머 자기회귀(Transformer Autoregressive)’ 모델과 디퓨전 모델로 구분된다. [자료=알리바바 클라우드]
멀티모달 이미지 생성 기술은 크게 ‘트랜스포머 자기회귀(Transformer Autoregressive)’ 모델과 디퓨전 모델로 구분된다. [자료=알리바바 클라우드]

멀티모달 이미지 생성 기술은 크게 ‘트랜스포머 자기회귀(Transformer Autoregressive)’ 모델과 디퓨전 모델로 구분된다. ‘트랜스포머 자기회귀’ 모델은 텍스트, 이미지를 토큰 시퀀스로 변환 후 생성 트랜스포머 아키텍처를 활용해 텍스트 시퀀스를 통해 이미지 시퀀스를 예측, 이미지 생성 기술(VAE, GAN)을 사용하여 이미지 시퀀스를 디코딩하여 최종 이미지를 생성한다.

디퓨전 모델의 경우, 노이즈를 학습시킨 뒤 역으로 적용하는 디퓨전 모델을 통해 텍스트와 이미지 특징의 매핑을 학습하고 이미지 특징을 디코딩하여 최종 이미지를 생성한다. 

트랜스포머 자기회귀 모델과 디퓨전 모델 중 어느 것이 더 낫다고 말하기는 어려우며 대규모 데이터 세트를 기반으로 훈련된 달리(DALL-E) 시리즈, 이매젠(Imagen), 파티(Parti) 등 모델의 경우 응용 단계에서 윤리적, 사회적 이슈가 있지만 이러한 모델을 활용한 앱은 테크 업계의 각광을 받으며 개발되고 있다. 

‘디스코디퓨전(Disco Diffusion)’은 AI 아트 창작 앱으로 지정 텍스트를 기반으로 이미지와 비디오를 생성할 수 있다. 이를 통해 로고, 핸드폰·컴퓨터 바탕화면, 캘리그라피 등의 이미지를 생성할 수 있다. 

텍스트 설명과 이미지를 기반으로 생선된 앤트파이낸셜 로고. [이미지=알리바바 클라우드]
텍스트 설명과 이미지를 기반으로 생선된 앤트파이낸셜 로고. [이미지=알리바바 클라우드]

멀티모달 이미지 생성은 이처럼 텍스트, 이미지 등 다양한 형태의 데이터를 학습하고 새로운 창작물을 만들어 낸다. 마치 ‘인간의 뇌가 사고하는 방식과 동일’하다는 평가를 받으며 AI의 다음 혁신으로 꼽히고 있다. 이러한 혁신 기술을 통해 어떤 혁신을 이룰 수 있을지 또한 모색해봐야 한다. 

멀티모달 이미지 생성 모델의 경우, 커머스 환경에서도 텍스트 입력을 통한 상품 이미지 연결, 사용자 맞춤형 검색과 상품 추천 등에 사용되고 있다. M6는 ‘Multi-Modality to Multi-Modality Multitask Mega-transformer’의 약자로 알리바바 다모 아카데미(알리바바 그룹의 글로벌 연구 이니셔티브)가 세계 최초로 멀티모달과 멀티태스킹을 위해 설계한 10조 개의 매개변수 사전 훈련 모델이다. 기존 모델 대비 80% 적은 에너지를 사용하고 11배 더 에너지 효율적이라는 특징이 있다.

M6에 '2D 일러스트 티셔츠'라고 입력 시 생선되는 이미지. [이미지=알리바바 클라우드]
M6에 '2D 일러스트 티셔츠'라고 입력 시 생선되는 이미지. [이미지=알리바바 클라우드]

또한, 상품 디자인과 제조에도 활용된다. M6는 디자이너들이 이미지 합성을 통해 빠르게 스케치할 수 있도록 지원한다. 디자이너가 M6로 제작된 초안 스케치로 작업하면 제품의 전체 제조 소요 기간을 몇 달에서 몇 주로 단축할 수 있다. AI 기술 기반 디자인으로 의류 디자인에 걸리는 시간을 2주 이내로 단축해 생산 시간 및 에너지를 줄였을 뿐만 아니라, 친환경 소재 또한 활용함으로써 티셔츠 한 장 생산에서 발생하는 탄소 배출량을 30% 이상 감축시켰다.

AI는 많은 산업의 디지털 전환에 중요한 역할을 하고 있다. 그리고 앞으로 그 영향력은 더욱 커질 것으로 전망된다. 향후 멀티모달 이미지 생성 기술을 통해 예술, 커머스를 넘어선 다양한 업무 영역과 산업에서 이롭게 사용할 수 있는 새로운 방법을 모색할 수 있기를 기대한다. 

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지