날씨 예측에 영상 추천까지…순환 신경망 ‘RNN’

[테크월드뉴스=이혜진 기자] “나는 미국인입니다. __어를 할 줄 압니다.”

위 문장에 ‘나는 미국인입니다’라는 문장이 없으면 빈칸을 채우기 어렵다. 순환 신경망(RNN∙Recurrent Neural Network)은 이처럼 앞에 나온 데이터를 바탕으로 뒤에 나올 정보를 추론하는데 최적화된 인공지능(AI) 알고리즘이다.

RNN이 선후 순서가 있는 시간 정보를 예측하는 원리는 뭘까. ‘What Is Your Calling?’이라는 문장을 예로 들어보자. 딥러닝(기계에 학습 능력을 부여하는 기술)으로 초기 훈련 중인 컴퓨터에 ‘What’이라는 단어를 주면 기기 내부에 생성된 인공 신경망(사람의 뇌 속 신경계를 모방한 것)이 작동한다.

이 때 컴퓨터가 다음 글자를 ‘app’으로 추측하면 한 신경망이 샘플을 비교해 해석하고 판독한 결과를 다음 신경망으로 전달한다. 이 과정에서 오류를 인지하면 딥러닝은 컴퓨터가 알맞은 단어를 예측할 때까지 여러 구절을 읽어준다.

그러면 컴퓨터가 통계를 바탕으로 빈 칸에 적합한 단어를 넣을 수 있다. 단 RNN이 빈칸 앞에 나온 데이터를 저장해야 이를 바탕으로 기기가 정확한 추론을 할 수 있다.

이와 같이 RNN은 시계열 데이터를 활용하므로 자연어(인간 사이에서 쓰는 언어), 주가, 날씨 등 앞뒤가 바뀌면 안 되는 정보를 처리하는데 적합하다. 이런 데이터의 시간 순서가 중요한 이유는 연속적으로 발생하는 정보를 한 덩어리씩 뗄 수 없기 때문이다. 마치 1시간 뒤의 기상 상황을 예보할 때 특정 시각의 정보만 고려하지 않는 것처럼 말이다.

앞서 예시로 든 문장 완성과 달리 기상∙주가 예측의 경우 적게는 하루 치, 많게는 연간 단위의 과거 데이터를 모아 예측해야 한다.

<AI 트렌드와 투자 인사이트>에 따르면 자연어 처리에서 RNN이 특히 많이 활용되는 사례는 번역을 할 때다. 구글, 페이스북, 마이크로소프트, 바이두, 아마존, 네이버, 카카오 등 많은 IT 대기업이 채택했다. 앞에 나온 글자에 따라 뒤에 올 단어를 추론한 뒤 전체 영어 문장과 한글 문장의 대응 관계에 따라 예측의 정확도를 높이는 방식이다. 현재 가장 광범위하게 사용되는 구조다.

그러나 RNN은 번역을 넘어 대화형 AI로 발전하기에 한계를 갖고 있다. 처음에 입력했던 언어 정보가 뒤로 가면서 사라져 문장을 제대로 이해하기 어렵기 때문이다. 이 같은 이유로 구글 어시스턴트 등 RNN을 적용한 AI 스피커의 대화의 정확도는 아직 높지 못하다.

회원가입 후 이용바랍니다.