[테크월드뉴스=양승갑 기자] 영상이해 초거대 AI 개발 기업 트웰브랩스가 초거대 AI 영상언어 생성 모델 ‘Pegasus-1(페가수스)’ 및 멀티모달 영상 이해 모델 ‘Marengo 2.6(마렝고)’을 업데이트 출시했다고 14일 밝혔다.

[사진=트웰브랩스]
[사진=트웰브랩스]

페가수스는 초거대 AI 영상언어 생성 모델로 지난해 11월 정식 공개돼 영상에 대한 요약, 하이라이트 생성 등 영상 기반 텍스트 생성 기능들을 최초로 선보인 바 있다. 이번 업데이트로 영상에 관해 궁금한 점들을 질문하면 답을 해주는 영상 질의응답 성능이 대폭 향상됐다.

또한 기존 모델은 홈페이지 내 대기자 명단 등록을 통해서만 사용 가능했던 반면, 이번 업데이트부터는 일반 대중에게 공개돼 누구나 쉽고 편리하게 페가수스 모델에 접근 및 활용 가능하다. 유료 버전의 경우 대량의 영상 활용이 필요한 기업 및 개발자들에게 보다 합리적인 가격으로 제공된다.

마렝고는 영상뿐 아니라 이미지, 음성 기반 모델을 아우르는 멀티모달 기반 모델이다. 트웰브랩스가 자체 진행한 내부 테스트 결과 최근 구글이 공개한 VideoPrism 모델보다도 좋은 성능을 보였다. 기존 모델에 비해 행동이나 방향성 등을 인지하는 모션 이해 인지 기능이 대폭 강화됐으며 물리 보안과 스포츠 분야에서 별도의 추가 학습 없이도 높은 이해도를 갖추도록 도메인 성능이 향상됐다.

비공개 베타 버전에서는 음성 및 이미지 이해 성능이 강화돼 텍스트 투 오디오, 오디오 투 비디오, 텍스트 투 이미지, 이미지 투 비디오 작업 수행이 가능해졌다.

트웰브랩스에 따르면 이번에 출시한 페가수스와 마렝고 모델은 구글 제미나이 1.5 프로, 오픈AI GPT-4V 등 현존하는 최고 성능의 상용 및 오픈소스 영상언어 모델들과 비교했을 때 최대 43%가량 성능 우위를 보인다.

특히 분 단위의 짧은 영상들만을 처리할 수 있는 타 모델과 달리 수백 시간의 영상들을 실시간으로 처리할 수 있어 인프라 완성도 측면에서도 크게 앞서 고객들이 모델을 도입해 안정적으로 운영할 수 있다고 설명했다.

트웰브랩스는 페가수스와 마렝고의 업데이트를 동시에 공개해 글로벌 영상이해 시장 내 확고한 선두로 자리매김한다는 계획이다. 두 모델 모두 한국어 및 다국어를 지원하며 스포츠, 미디어 및 엔터테인먼트, 물리보안 영역을 중심으로 글로벌 시장 세일즈에도 적극 나선다.

트웰브랩스 이재성 대표는 “트웰브랩스의 모델은 영상이해에 특화되어 오픈AI의 소라, 구글 제미나이가 제공하는 영상생성과는 차이가 있다”며 “페가수스 및 마렝고 모델은 영상언어 초거대 모델들로는 수행 불가한 세밀한 수준의 작업까지 지원하는 만큼 영상이해 기술을 핵심 산업들에 최적화하여 본격적인 확산을 추진하겠다”고 밝혔다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지