고대 언어 해독의 근거를 제시하는 AI 알고리즘

[테크월드=선연수 기자] 과거의 언어는 기록이 남은 벽화, 문헌을 통해 그 의미를 알아낸다. 그러나 분석할 자료가 충분하지 않을 수도 있고, 언어학자들이 각기 다른 해석을 내놓을 수도 있다. 데이터를 주입해 컴퓨터를 학습 시키는 머신러닝(Machine learning, 기계학습) 기술은 이에 더 정확하고 세밀한 통찰력을 제공한다.

 

 

수십년 걸리는 해독을 1년 내로

최근 MIT 컴퓨터 과학·인공지능 연구소(CSAIL, Computer Science and Artificial Intelligence Laboratory)는 해독하고 싶은 언어와 관련있는 언어에 대한 고급 지식이 없어도, 이를 읽어낼 수 있는 머신러닝 알고리즘 기술을 개발했다.

이 기술의 개발을 주도한 레지나 바질레이(Regina Barzilay) 교수와 박사 과정생 지아밍 루오(Jiaming Luo)는 이 기술을 활용해, 작년에 쓴 ‘최소 비용 플로우를 통한 뉴럴 해독: 우가리트어부터 선형문자 B까지(Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B)’ 논문을 바탕으로 우가리트어(Ugaritic)와 선형문자 B(Linear B) 언어를 1년 만에 해독해냈다. 선형문자 B(Linear B)의 경우, 사람이 이를 해독하는데 수십년이 소요된 언어다. 연구팀은 이런 빠른 해독이 가능했던 건 두 언어가 각각 초기 형태의 히브리어, 그리스어와 관련있음을 알았던 영향도 있다고 설명을 덧붙였다.

 

머신러닝 언어 해독의 원리

바질레이 교수는 일반적으로 언어는 예측 가능한 방식으로만 진화하고, 언어학의 역사가 주는 통찰력에 기인한 몇 가지 원칙을 따른다고 설명했다. 그 예로, 시초가 되는 조어(Parent language)에 ‘p’라는 문자가 있다면, 하위 언어(Descendant language)에서 그것이 ‘b’로 바뀔 수는 있으나 발음 차이가 심한 ‘k’로 바뀔 가능성은 낮다.

개발된 알고리즘은 발음의 차이가 발음 벡터의 거리에 반영되는 공간 차원에 언어의 소리를 삽입하는 방법을 학습한다. 이를 통해 변경되는 언어의 알맞은 패턴을 포착하고 이를 컴퓨팅 제한(Computational constraint)으로 표현해낸다. 도출된 모델은 고대 언어를 단어마다 분할해, 관련된 언어의 대응되는 단어에 연결(Mapping)하도록 한다.

이베리아어(Iberian)는 언어학자들 사이에서도 이견이 발생하는 언어다. 일부 언어학자들은 이베리아어가 바스크어(Basque)와 관련이 있다고 하지만, 우리가 아는 언어와는 전혀 관련이 없다고 주장하는 학자들도 있다. 이번 언어 해독 알고리즘을 개발한 연구팀은 해당 시스템을 이베리아어 분석에도 사용했다. 분석 과정에서 바스크어는 물론 로맨스(Romance), 게르만(Germanic), 튀르크(Turkic), 우랄어족(Uralic)의 여러 언어들을 언어군 식별 테스트에 적용했다.

그 결과, 연구팀은 바스크어나 라틴어는 다른 언어에 비해 이베리아어에 가깝긴 하지만, 관련성이 있다고 보기엔 다른 점이 많았다며, 해당 학문에 근거를 제시했다. 이후에는 ‘동종 기반 해독(Cognate-based decipherment)’ 즉, 어원이 유사한 언어에 기반한 접근 방식을 활용해 다양한 작업을 진행해보고자 한다고 밝혔다. 이와 같은 방식은 연구자가 해독하고자 하는 언어를 읽는 방법을 모르더라도 단어의 의미론적 뜻을 식별해낼 수 있도록 한다.

 

사람이 어려워하는 해석도 척척

언어를 분석하는 인공지능(AI) 알고리즘은 실제로 문헌 해석에 유용하게 활용되고 있다.

 

인도학자 올리버 헬위그(Oliver Hellwig) 박사는 산스크리트어(Sanskrit) 분석의 디지털화에 대한 가능성을 보고, 매일 30분씩 산스크리트어를 분석하고 데이터베이스에 추가해 450만 개의 단어 데이터를 쌓았다. 이어 복합 문자열을 분리하는 도구를 만들고, 통계 모델로 시작한 것을 광학 문자 인식과 자연어처리 모델로 발전시키기까지 했다. 엔비디아는 헬위그 박사가 쿼드로 GPU를 활용해 산스크리트어 문헌 분석을 위한 딥러닝 모델을 훈련 중이라고 밝혔다.

딥러닝 툴로 테스트를 진행해 본 헬위그 박사는 “산스크리트어로 이뤄진 문헌의 본래 형태를 읽는 것은 사람에게도 아주 복잡한 작업인데, 툴이 상당히 잘 작동해서 놀랐다”고 소감을 남겼다.

그러나 문자의 뜻을 알기 어려울 정도로 오래된 언어를 해독할수록 알고리즘 학습에 사용할 수 있는 데이터는 적어질 수 밖에 없다. 바질레이 교수는 “학습(Training)에 사용되는 고대 언어 데이터 없이도 해독 작업이 가능할 것인가가 앞으로의 핵심 과제”라고 연구 의지를 밝혔다.

이 기사를 공유합니다
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사