레벨1 수준에 머무른 현재의 AGI
특정 영역에서는 이미 전문가 수준
초인공지능으로 기대되는 새로운 기술

[테크월드뉴스=양승갑 기자] 범용인공지능(AGI: Artificial General Intelligence)을 단계별로 구분하는 밑그림이 나왔다.

최근 구글 딥마인드 연구진은 AGI를 5단계로 구분하며 특정 범위의 작업에서만 뛰어난 성능을 보이는 ‘좁은 AI(Narrow)’와 인지 능력을 포함하는 ‘광범위한 범위의 일반 AGI(General)’를 구분한 기준을 발표했다.

연구진은 “이 기준은 AGI의 성능, 일반성, 자율성 수준을 소개한다”며 “AGI로 가는 과정에서 진행 상황을 측정하는 공통 기준을 제공함으로써 마치 자율주행 5단계 구분 체계처럼 유용하게 사용되기를 바란다”고 밝혔다.

구글 딥마인드 연구팀 자료 재가공 [그래픽=장영석 기자]
구글 딥마인드 연구팀 자료 재가공 [그래픽=장영석 기자]

 

▶ AGI의 6가지 원칙

연구진은 AGI 단계를 정의함에 있어 6가지 원칙을 정립했다. 명확한 개념을 정량화함으로써 미래에 발생할 수도 있는 위험과 여러 요구사항에 대해 대비한다는 판단에서다.

구체적으로 ▲알고리즘 자체보다는 실제 성능에 초점 ▲범용성과 범용 시의 성능 ▲메타인지 능력과 사람에게 설명이나 도움을 요청해야 할 때를 아는 것 등이다. 또한 ▲일자리 감소 같은 우려보다는 잠재력에 집중 ▲사람들이 가치 있게 여기는 과제를 우선하는 생태학적 타당성 ▲레벨 단위로 접근, 구분 체계 정립을 위한 논의 등이 포함됐다.

다만 이런 기준을 모두 충족하는 AGI는 현재 존재하지 않는다는 설명이다.

 

레벨1(신흥): 현재의 챗GPT·바드·라마

연구진은 현재의 챗GPT, 바드(Bard), 라마2(Llama) 등이 초기 AGI에 해당한다고 밝혔다. 이 AI 모델들은 범용 영역에서 사용할 수 있으며 언어, 웹 사이트, 제작 등 다양한 분야에서도 활용된다.

범위를 좁힌다면 1971년 MIT의 테리 위노그라드(Terry Winograd)가 발표한 자연어 이해 컴퓨터 프로그램 ‘SHRDLU’이 특정 영역에서의 1단계 수준이다. 공, 블록, 원뿔 등 단순 요소로 구성된 블록 세계에서 사용자의 영어 단어를 받아 응답한다. 예를 들어 ‘상자에는 무엇이 들어있나요?’, ‘상자 밖에 있는 블록은 제가 집으라고 말한 것보다 작은가요?’라고 질문받으면 각각의 상황에 맞는 답변을 내놓는다.

SHRDLU 개발이 중요했던 이유는 컴퓨터가 구조화되지 않은 사람의 언어를 이해하는 능력을 습득했기 때문이다. 단순한 규칙 기반 시스템으로 한계도 존재했지만 상황을 이해한다는 점은 당시 SHRDLU가 ‘지능을 갖게 됐다’라는 착각을 불러일으킬 정도였다.

그렇지만 SHRDLU를 AGI로 포함하기에는 무리가 있다. 규칙이 하드코딩 돼 있으면서 활용할 수 있는 범위가 매우 한정적이기 때문이다.

구글 딥마인드 연구팀은 아이폰에 탑재된 시리를 특정 기능을 수행하는 좁은 범위의 2단계 AI라고 설명했다 [사진=애플]
구글 딥마인드 연구팀은 아이폰에 탑재된 시리를 특정 기능을 수행하는 좁은 범위의 2단계 AI라고 설명했다 [사진=애플]

 

▶ 레벨2(유능한)·레벨3(전문가)·레벨4(거장): 특정 영역에서 성능 발휘

챗GPT, 바드, 라마2 역시 일반적인 영역에서도 활용된다고 하지만 진정한 AGI라고 부르기에는 무리가 있다. 아직 사람이 데이터셋을 학습시켜야 하며 성능적인 측면에서도 한계를 보이기 때문이다. AGI는 모든 영역에서 사람을 뛰어넘는 수준의 성능을 보인다는 것이 일반적이다.

연구진은 보고서에서 “챗GPT, 바드, 라마2 등 모델들은 일부 작업에서는 전문가 수준의 성능을 보이지만 수학적 능력, 사실성과 관련된 작업 등 대부분 영역에서는 아직 ‘신흥’ 수준이다”며 “광범위한 작업에서 성능 수준이 향상될 때까지 이 모델들은 ‘신흥’으로 간주된다”고 밝혔다.

애플의 시리, 아마존의 알렉사, 구글 어시스턴트 등 스마트 스피커들이 특정 범위의 2단계다.

전문가 수준을 뛰어넘는 특정 범위에서 탁월한 성능을 보이는 AI도 존재한다. 연구진은 이 수준을 인간 전문가의 상위 1~10% 정도로 설명했다. 레벨3은 AI 문법 검사기 ‘그래머리(Grammarly)’, 이미지 생성 AI 달리2(Dall-E2) 등이 있으며 레벨4는 체스 특화 AI ‘딥 블루(Deep Blue)’, 바둑 AI 프로그램 ‘알파고(AlphaGo)’가 해당된다.

이들 프로그램은 단일 연산에 할당된 연산 능력이 매우 뛰어나다. 1990년대 IBM의 슈퍼컴퓨터 ‘RS6000/SP’상에서 작동되는 딥블루는 초당 2억 개의 체스 위치의 연산 및 평가가 가능하다고 알려졌다. 실제로 딥블루를 활용한 대결에서 컴퓨터가 세계 체스 챔피언을 이긴 바가 있다. 전체적인 대결에서는 사람이 승리했지만 AI의 발전 정도를 생각했을 때 현재 AI 성능이 어디까지 발전했을지 가늠하기가 어렵다.

다만 성능에 따라 시스템을 평가했지만 배포될 때는 이 기준과 일치하지 않을 수도 있다고 밝혔다. 이론적으로는 ‘전문가’ 수준의 시스템이지만 사용자 인터페이스나 프롬프트가 너무 복잡해 대부분 사용자가 최적의 성능을 이끌어내기 어려워 실제 체감 정도는 ‘유능한’ 수준에 불과하다는 의미다.

연구진은 달리2의 성능 제한이나 사용자가 AI 성능을 끌어내기 위해 숙련된 프롬프트 엔지니어가 프롬프트를 판매하는 ‘프롬프트베이스(PromptBase)’ 등을 방문하는 행위가 이와 관련됐다고 설명했다.

[사진=프롬프트베이스 화면 캡처]
사용자는 AI 성능을 끌어내기 위해 프롬프트를 판매하는 사이트를 이용하기도 한다 [사진=프롬프트베이스 화면 캡처]

 

▶ 레벨5(초인): AGI를 넘어선 초인공지능

모든 영역에서 사람을 100% 능가하는 것이 5단계다. 이 수준은 AGI가 아닌 초인공지능(ASI: Artificial Super intelligence)으로 명칭된다. 성능과 일반적인 측면에서 모두 세계 최고 능력이라는 의미다.

이 역시 특정 범위에 한해 AI가 존재할 뿐이다. 단백질 3D 구조를 예측하는 AI ‘알파폴드(AlphaFold)’, 바둑, 체스 등 모든 보드 게임을 학습할 수 있는 ‘알파제로(AlphaZero)’, 체스 엔진 중 가장 뛰어난 성능을 보인다는 ‘스톡피쉬(StockFish)’ 등이 포함된다.

또한 현재의 AI보다 훨씬 더 광범위한 작업을 수행할 수 있다고 내다봤다. 연구진은 “ASI가 가질 수 있는 기술에는 뇌 신호를 분석해 생각을 해독하는 신경 인터페이스, 대량의 데이터를 분석해 고품질 예측을 하는 능력, 발성, 뇌파 또는 신체 언어의 패턴을 분석한 동물과의 의사소통 등이 포함될 수 있다”고 밝혔다.

한편 기술 전문매체 벤처비트는 메타, 허깅페이스 등 연구원들이 만든 AGI 수치가 판단 가능한 벤치마크 ‘GAIA’를 발표했다고 지난 27일(현지시간) 보도했다. 벤치마크는 전문 지식이 아닌 사람과 같은 역량에 중점을 두었다. 이에 따르면 사람은 92%의 점수를 획득한 반면 GPT-4는 플러그인을 사용하고도 15% 수준에 머물렀다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지