알리바바 클라우드, 70억 개 파라미터 갖춘 LLM 오픈소스로 공개

[테크월드뉴스=양승갑 기자] 알리바바 클라우드가 70억 개의 파라미터를 갖춘 대규모 언어 모델(LLM) ‘Qwen-7B’와 ‘Qwen-7B-Chat’을 오픈소스로 공개했다고 8일 밝혔다. 이번 LLM은 인공지능(AI) 모델 커뮤니티 ‘모델스코프(ModelScope)’와 협력, AI 플랫폼 ‘허깅페이스(HuggingFace)’를 통해 선보였다.

지난 4월 초, 알리바바 클라우드는 70억 개 이상의 파라미터를 포함한 다양한 모델 사이즈를 제공하며 중국어와 영어 모두 인간이 생산하는 것에 준하는 높은 수준의 콘텐츠를 생성할 수 있는 독자적인 LLM ‘통이치엔원(Tongyi Qianwen)’을 공개한 바 있다. 이번에 공개된 오픈소스는 사전 학습된 70억 개의 파라미터 모델인 ‘Qwen-7B’와 회화적으로 세밀하게 조정된 버전인 ‘Qwen-7B-Chat’을 포함하고 있다.

AI 기술의 민주화를 위한 노력의 일환으로, 알리바바 클라우드는 전 세계 학계와 연구기관, 영리단체들이 모델의 코드와 가중치, 문서에 무료로 접근할 수 있도록 개방할 예정이다. 월간 활성 이용자(MAU) 수가 1억 명 이하인 기업들은 이 모델을 상업적 용도로 무상 사용할 수 있다. 1억 명 이상의 사용자를 보유한 프로그램들의 경우 알리바바 클라우드에 라이선스를 요청할 수 있다.

알리바바 클라우드 징런 저우(Jingren Zhou) 인텔리전스 최고기술책임자(CTO)는 “알리바바 클라우드는 독자적인 LLM을 오픈소스로 공개해 포용적 기술을 촉진하고 보다 많은 개발자와 중소기업들이 생성형 AI의 이점을 누릴 수 있도록 지원하고자 한다”며 “오픈소스 이니셔티브에 대한 확고하고 장기적인 지지자로서 알리바바 클라우드는 이처럼 개방적인 접근 방식을 통해 집단지성이 발휘돼 오픈소스 커뮤니티의 활성화에 기여할 수 있기를 희망한다"고 말했다.

Qwen-7B는 2조 개 이상의 토큰에 대해 사전 학습됐다. 중국어, 영어, 기타 다국어 자료, 코드, 수학 등 일반 및 전문 분야를 포괄한다. 또한 8K에 달하는 컨텍스트 길이를 갖추고 있다. Qwen-7B-챗 모델은 학습 과정에서 인간의 지시사항에 맞추어 조정됐다. Qwen-7B와 Qwen-7B-챗 모델은 클라우드와 온프레미스 인프라 모두에서 배포될 수 있다. 사용자들은 모델을 세밀하게 조정할 수 있고 효과적·경제적으로 자체적인 고품질 생성형 모델을 구축할 수 있다.

사전 학습된 Qwen-7B 모델은 MMLU 벤치마크에서 56.7점의 기록하며 유사하거나 일부 더 큰 규모의 여타 주요 사전학습 오픈소스 모델들의 성능을 능가했다. 이 벤치마크는 초등 수학, 컴퓨터 과학, 법률 등을 포함한 57가지의 다양한 과업을 수행하는 텍스트 모델의 다중 작업 정확도를 평가한다.

또한 Qwen-7B는 기초 모델을 위한 종합적인 중국어 평가 테스트 C-이벌(C-Eval)에서 동등한 파라미터를 가진 모델 중 가장 높은 점수를 기록하기도 했다. 인문학, 사회과학, STEM(과학, 기술, 공학, 수학), 기타 분야를 포함한 총 52개 주제를 다루고 있다.

회원가입 후 이용바랍니다.

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

내 댓글 모음

양승갑 기자 (techinsight@techworld.co.kr)

기자의 다른기사 보기

434호

256호

알리바바 클라우드, 70억 개 파라미터 갖춘 LLM 오픈소스로 공개