“지니는 방대한 잠재력 보유, 생성형 AI 에이전트 촉진할 것”

[테크월드뉴스=양승갑 기자] 구글 딥마인드가 이미지를 기반으로 생동감 있는 2D 게임을 만들 수 있는 생성형 인공지능(AI) ‘지니(Genie)’를 공개했다.

최근 구글 딥마인드는 합성 이미지, 사진, 스케치를 입력하면 사용자가 직접 조작할 수 있는 ‘2D 플랫포머’를 생성하는 지니를 선보였다. [영상=구글 딥마인드]
최근 구글 딥마인드는 합성 이미지, 사진, 스케치를 입력하면 사용자가 직접 조작할 수 있는 ‘2D 플랫포머’를 생성하는 지니를 선보였다. [영상=구글 딥마인드]

8일 업계에 따르면 최근 구글 딥마인드는 합성 이미지, 사진, 스케치를 입력하면 사용자가 직접 조작할 수 있는 ‘2D 플랫포머’를 생성하는 지니를 선보였다. 현재 2D 플랫포머 게임과 로보틱스 동영상에 초점을 맞추고 있지만 모든 유형의 도메인에도 적용 가능하다는 것이 회사 측 설명이다.

특히 간단한 프롬프트로 가상 환경을 생성할 수 있으며 스케치와 같이 사람이 디자인한 창작물에도 적용이 가능하다. 공개된 영상을 보자면 지니는 사람이 손으로 스케치한 캐릭터와 배경에서도 자연스럽게 작동된다.

구글 딥마인드는 “지니는 액션 레이블 없이도 훈련이 가능하며 공개적으로 사용 가능한 인터넷 동영상의 대규모 데이터셋을 통해 학습했다”며 “인터넷 동영상에는 일반적으로 어떤 동작이 수행되고 어느 부분을 제어해야 하는지 레이블이 없는데 놀랍게도 지니는 이런 부분을 제어할 수 있는지 확습하며 다양한 잠재 동작을 추론할 수 있다”고 설명했다.

이런 성능을 구현하기 지니는 942억 개의 토큰에 대해 107억 개의 매개변수를 학습시켰다. 또한 20만 시간 이상의 2D 게임 비디오를 3만 시간 분량의 비디오로 필터링했다.

지니는 사람이 스케치한 창작물에도 작동 가능하다. [영상=구글 딥마인드]
지니는 사람이 스케치한 창작물에도 작동 가능하다. [영상=구글 딥마인드]

현재까지는 공식 홈페이지에서 지니 연구 환경을 설명한 논문과 간단한 조작 영상들만 공개됐다. 또한 성능도 초당 1프레임으로 한계가 있으며 공개된 영상은 일련의 프레임을 이어 붙인 것에 불과하다. 다만 본격적으로 성능이 고도화되고 상용화되기 시작할 경우 그 파급력은 매우 클 것으로 예상된다. 상상 속의 환경을 구현할 수 있다는 것만으로도 범용성이 매우 뛰어나기 때문이다.

이와 관련해 구글 딥마인드는 “지니는 현재 약 1프레임으로 작동해 효율적인 프레임 속도를 달성하기 위해서는 앞으로 발전이 필요하다”며 “하지만 지니는 향후 연구에 있어 방대한 잠재력을 가지고 있다. 미래에 가능할 수 있는 일의 표면을 긁어모은 것일 뿐”이라고 강조했다.

지니 프로젝트에 참여한 구글 딥마인드 록타쉘(Tim Rocktäschel) 오픈-엔드니스팀 리드는 X에서 “지니의 모델은 2D에만 국한되지 않는 일반적인 모델이다. 지니를 훈련시켜 동작 제어가 가능한 시뮬레이터도 학습할 수 있음을 보여준다“며 “지니는 인터넷 동영상으로만 학습된 모델로 이미지 프롬프트만 주어지면 제어 가능한 2D 월드를 무한히 생성할 수 있다”고 전했다.

구글 딥마인드는 “지니는 이미지나 텍스트로 전체 대화형 세계를 생성할 수 있는 시대를 열었다”며 “미래의 생성형 AI 에이전트를 양성하는 데 촉매제가 될 것으로 믿는다”고 밝혔다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지