프랜들리AI, 인퍼런스 효율성 강조
스캐터랩, 사람과 대화하는 LLM

[테크월드뉴스=양승갑 기자] 17일 서울 강남구 코엑스에서 진행된 ‘SK 테크 서밋’의 연사로 나선 프랜들리AI, 스캐터랩 등 AI 스타트업 관계자들은 자체 대형언어모델(LLM) 구축의 필요성을 역설하며 자사 AI 모델의 방향성에 관해 설명했다. 프랜들리AI는 생성형 AI 효율성을 높이는 솔루션, 스캐터랩은 사람과 상호작용하는 LLM을 강조했다.

프랜들리AI, 스캐터랩 등 AI 스타트업 관계자들은 자체 LLM 구축의 필요성을 강조했다 [사진=양승갑 기자]
프랜들리AI, 스캐터랩 등 AI 스타트업 관계자들은 자체 LLM 구축의 필요성을 강조했다 [사진=양승갑 기자]

 

▶ 기업 특화 서비스 위해 자체 LLM 구축 필요해

챗GPT 출시 이후 1년간 ▲팜2(PaLm 2) ▲클로드(Claude) ▲코히어(Cohere) ▲팰컨(Falcon) ▲라마(LLaMA) ▲비쿠나(Vicuna) ▲MPT-30B 등 수많은 LLM이 등장했다.

LLM 선택의 폭이 넓어졌다고 할 수도 있겠지만 여전히 일부 기업들은 자체 LLM 구축의 필요성을 느끼고 있다. 기업별 추구하는 목적과 운영하는 서비스에 맞게 LLM을 미세조정(파인튜닝) 등 여러 가지 실험을 자유롭게 하는 환경이 필요하기 때문이다.

다만 LLM 구축에 대해 기업들은 어려움을 겪고 있다. 현재 대다수 기업에서 사용되고 있는 LLM은 영어 기반으로 해외에서 개발된 것이 대부분이다. LLM 특성상 한국어 데이터가 일부 들어가더라도 활용할 수 있다지만 실제 서비스와 연계할 시 준수한 성능을 보여줄 수 있을지는 의문이다.

또한 상대적으로 한국어 LLM 생태계는 영어권과 비교했을 때 빈약하다. 사용자들을 만족시키기 위한 의미 있는 서비스를 제공해야 하는 AI 기업에는 단점이다.

프랜들리AI 유경인 CTO는 “모델을 확보해서 직접 운영하려는 시도가 점점 많아지고 있다”며 “아이러니하게도 오픈AI의 대주주인 마이크로소프트마저도 GPT 활용을 막았던 것은 시사하는 바가 크다”고 말했다.

프랜들리AI 유경인 CTO는 인퍼런스 효율성 향상을 위한 생성형 AI 솔루션 페리플로우를 소개했다 [사진=양승갑 기자]
프랜들리AI 유경인 CTO는 인퍼런스 효율성 향상을 위한 생성형 AI 솔루션 페리플로우를 소개했다 [사진=양승갑 기자]

 

▶ 인퍼런스 효율성 향상으로 자원량 감소 가능해

AI 스타트업 프랜들리AI 역시 자체 LLM 구축의 필요성을 이야기했다. 다만 LLM을 구축하는 데 있어 소모되는 비용적 문제나 그래픽처리장치(GPU)가 수요에 비해 공급이 부족한 상황에 대처해야 된다고 짚었다.

유 CTO는 “GPT 같은 범용 모델은 특정 도메인에 학습시킨 모델에 비해서는 출력 품질이 떨어질 수밖에 없다”며 “그렇다고 API를 활용하면 경쟁자가 언제든지 동일한 API를 사용해서 비슷한 서비스를 출시할 위험이 있다”고 말했다.

이런 문제를 해결하기 위해 프랜들리AI는 ‘인퍼런스(inference) 효율성’을 강조했다. 인퍼런스 효율성이란 같은 양의 GPU 자원을 활용해 더 큰 모델과 많은 트래픽을 처리하는 것을 의미한다. 인퍼런스 효율성이 향상될 경우 비용 문제나 GPU 공급 제한도 일부 해결할 수 있다.

다만 LLM의 인퍼런스 효율성을 높이는 것이 쉽지만은 않다. AI 모델 수행에 사용되는 GPU의 특성과 동장방식의 이해, 수행할 모델에 어떤 인풋(입력값), 아웃풋(출력값)을 넣어야 할지에 대한 이해가 필요한 이유에서다.

이런 문제를 해결하기 위해 프랜들리AI는 GPU 자원량을 줄이면서도 최적의 속도를 낼 수 있는 생성형 AI 서빙 솔루션 ‘페리플로우(PeriFlow)’을 제공하고 있다. 라마, 스테이블 디퓨전 등 다양한 유형의 생성형 AI 모델과 챗봇, 문서 요약, 시각 데이처 처리 등 사용 방식도 지원한다.

페리플로우는 확보된 자원 위에서 고객 모델로 인스턴스(Instance)를 실행한다. 이 때 GPU는 온프레미스, 클라우드와 관계없다. 생성된 엔드포인트(Endpoint)는 응답으로 생성된 추론 결과를 받을 수 있다. 모델과 워크로드 하드웨어를 종합적으로 고려한 최적화 기법을 활용한다는 의미다. 궁극적으로 소모되는 자원량을 줄이는 것이 가능하다.

유 CTO에 따르면 페리플로우를 도입한 다양한 사례에서 최대 80%까지 LLM 운영 비용을 절감하는 것으로 확인됐다. 동일한 수준의 서비스 트래픽을 처리하는 데 필요한 GPU 수도 최대 10% 감소됐다. 스캐터랩도 프랜들리AI가 개발한 페리플로우를 사용하고 있다.

유 CTO는 “페리플로우는 같은 작업량을 더 적은 GPU로 처리할 수 있기 때문에 순간적인 로드 스파이크(트래픽 부하) 상황에서도 대처할 수 있다”며 “서비스 안정성 향상에도 도움 된다”고 말했다.

이어 “프랜들리AI의 비전은 많은 기업들이 생성형 AI 활용 과정에서 겪는 비용·기술적 장벽을 낮추는 것”이라며 “나아가 생성형 AI 생태계를 바꿔 나가는 데 일조하는 것”이라고 덧붙였다.

스캐터랩 김종윤 대표는 사람들의 마음을 사로잡는 LLM과 AI 앱을 만드는 것이 목표라고 밝혔다 [사진=양승갑 기자]
스캐터랩 김종윤 대표는 사람들의 마음을 사로잡는 LLM과 AI 앱을 만드는 것이 목표라고 밝혔다 [사진=양승갑 기자]

 

▶ 개성 있는 LLM, 소셜 상호작용에 주목

스캐터랩 김종윤 대표는 “제품을 만들고 기존 기업과 다른 지향점을 가져가는 입장에서는 사용자에게 어떤 가치를 주어야 하고 역량을 갖춰야 하는지에 대한 이해가 필요하다”며 “주식 보고서나 영화 보고서 등 똑같은 답변이라도 기준이 달라질 수 있기 때문에 자유로운 실험을 할 수 있는 환경이 필요하다”고 말했다.

AI 스타트업 스캐터랩은 LLM을 구축할 때 소셜 인터랙션(상호작용)에 주목했다. 현재 AI 챗봇 ‘이루다’를 운영하고 있다. 이루다는 일반적인 지식 전달도 가능하지만 사용자 대화가 목적으로 센스 있고 창의적인 표현 능력이 요구된다.

이를 위해 스캐터랩은 LLM ‘핑퐁1(Pingpong-1)’을 개발하게 됐다. 이루다를 운영한 서비스 노하우를 바탕으로 향후 출시될 다양한 서비스를 고도화한다는 목표다. 이를 두고 김 대표는 “소셜 인터랙션에 대한 감각이 중요한 영역에 집중한다. 맞고 틀리기보다는 재미있고 없는지에 주목한다”고 말했다.

특히 핑퐁-1은 AI 모델 ‘루다 젠1(Luda Gen-1)’에서 한층 발전했다. 루다 젠1이 대화 데이터만 학습해 일반적인 역량과 지식이 부족했기 때문이다. 또한 AI 역량에 중요한 영향을 미치는 LLM의 크기가 상대적으로 작아 개선의 필요성도 요구됐다.

핑퐁1은 루다 젠1 대비 7배 더 많은 데이터를 학습했다. 대화 데이터뿐만 아니라 일반 지식, 위키, 코딩 데이터 등의 데이터도 획득해 더 나은 성능을 보여준다.

현재 핑퐁1을 활용한 사업 목표는 연예·엔터테인먼트, 게임·콘텐츠, 소셜 커머스·교육·케어 등이다. 김 대표는 핑퐁1이 감성적인 특징을 지녀 인터랙티브한 경험이 중요한 영역에서 효과를 발휘할 것으로 내다봤다. 또한 김 대표에 따르면 핑퐁1은 다양한 패션 아이템을 대상으로 작성한 푸시 메시지에 대해 GPT-4와 상대 평가한 결과 51%(핑퐁1), 17%(무승부), 32%(GPT-4) 등의 선호하는 결과를 보였다.

김 대표는 “스캐터랩이 만들고 싶은 LLM은 T(사실)가 아니라 사람의 마음을 움직이는 F(감성) 같은 것”이라며 “할루시네이션이 없어야 하는 것도 맞지만 상상의 나래를 펼치는 것이 사용자 입장에서는 큰 재미와 감동을 줄 것으로 생각한다”고 말했다.

이어 “이렇기 때문에 자체 LLM이 필요하다고 생각했다. 사람들의 마음을 사로잡을 수 있는 LLM과 AI 애플리케이션을 만드는 것이 스캐터랩이 지향하는바”이라고 덧붙였다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지