[테크월드=이건한 기자] “여러분의 흥미와 관심사를 빅데이터로 분석해 클릭률이 가장 높을 제목을 도출해봤습니다!” 인터넷 커뮤니티 등에서 때때로 볼 수 있는 ‘낚시글’의 형식이다. 게시글에 자극적인 제목을 걸어 놓고 제목에 끌려 글을 열어본 사람을 놀리는 장난이다. 물론 가볍게 웃어넘길 수 있지만 궁금한 점이 생겼다.

바로 ‘흥미와 관심사를 빅데이터로 분석한다’는 대목. 과연 ‘빅데이터(Big data)’란 무엇이길래 말하지도 않은 내 관심사를 예측했다고 주장하는 걸까? 결론부터 말해 빅데이터는 단순히 큰 데이터를 이르는 게 아니다. 

우선 '빅데이터'가 일반 데이터와 구분되는 이유는 단순한 규모 차이 외에도 일반 데이터에 포함되지 않던 광범위한 영역의 비정형 데이터를 함께 다루기 때문이며, 나아가 기존 데이터의 조합에서는 찾을 수 없던 새로운 가치의 발굴을 목표로 하기 때문이다.  

사진=게티이미지뱅크

빅데이터는 태초부터 존재했다. ‘쓰지 못했을 뿐’

사실 빅데이터는 없던 데이터가 생겨난 게 아니다. 따지고 보면 태초부터 우리와 함께해온 데이터다. 다만 오랜 시간 기술적인 한계로 인해 이를 수집하고 활용할 수 없었을 뿐이다. 대표적인 빅데이터로 꼽히는 SNS 사용 패턴, 검색 트렌드, 매장 내 고객의 이동 경로, 구입한 물건의 종류, 세대별 음악 취향, 시간대별 콘텐츠 소비 행태 등, 과거에는 파편화 정도가 심하고 개인화 성향이 강한 데이터들에 대한 수집이 쉽지 않았다. 설령 데이터를 손에 넣었다 한들, 그 안에서 어떤 새로운 의미를 분석해내는 과정은 데이터 수집보다 더 어려운 일이었다. 

하지만 수년 전부터 빅데이터 수집과 가공에 특화된 도구들, 특히 데이터를 생산하는 사물인터넷과 센서 기술, 이를 처리할 빠르고 효율적인 프로세서와 스토리지, 여기에 딥러닝 인공지능 분석 기술 등이 고른 성장세를 보이면서 지금까지 버려져 왔던 빅데이터들이 드디어 손에 잡히기 시작한 것이다. 

다만 본격적인 이야기에 앞서, ‘빅데이터’와 ‘빅데이터 분석’은 어느 정도 구분해주는 것이 좋다. 사실 빅데이터란 용어가 워낙 대중적으로 쓰이다 보니 빅데이터와 분석을 그냥 '빅데이터'로 합쳐서 표현하는 경우가 많은데, 엄밀히 말해 빅데이터 자체는 그냥 가공되지 않은 데이터셋일 뿐이고, 실제 눈에 보이는 가치는 빅데이터 분석 과정에서 만들어진다.

한편, 빅데이터 시대 이전에도 일반 데이터셋을 대상으로 특정한 규칙이나 패턴을 찾는 데이터 마이닝(Data mining)이란 기술과 학문이 있었다. 그러던 중 빅데이터의 개념이 크게 주목받기 시작하며 데이터 마이닝보다 빅데이터 분석이란 말이 더 일반적으로 쓰이기 시작했으며, 요즘은 빅데이터 분석을 전문적으로 하는 데이터 사이언티스트(Data Scientist)에 대한 기업의 수요도 높은 편이다.

빅데이터 = 정형+비정형 데이터+분석 

구조적 측면에서의 빅데이터는 ‘정형 · 비정형 데이터의 집합’이다. 다소 생소하게 들릴 표현들인데, 정형 데이터란 쉽게 말해 ‘100’ ‘1004’ 같은 숫자처럼 일반적인 연산이 가능한 형태의 데이터를 말하고, 비정형 데이터는 사진, 영상, SNS 활동기록 등 일반적인 방법으로 계산할 수 없는 형태의 데이터를 말한다. 이 중 빅데이터의 영역에서 더 중요하게 다뤄지는 건 비정형 데이터다. 

대부분의 결과가 예상되는 정형 데이터 분석과 달리, 형태가 가변적인 비정형 데이터는 그만큼 무한한 의미의 해석과 관점이 담길 수 있는 여지가 담겨있기 때문이다.  

가령, 정형 데이터만 갖고 있는 경우 ‘일주일 동안 냉면 700그릇을 판매한 가게의 하루 평균 판매량은 100그릇’ 정도의 계산이 가능하다. 그런데 알고 보니 월요일에는 평소보다 많은 200그릇이 판매됐다고 한다. 하지만 그 이유를 정형 데이터만으로 추측하긴 어렵다.

이때 빅데이터의 세계에서는 다음과 같은 계산이 가능하다. ‘페이스북과 인스타그램, 트위터 등에서 해당 기간의 냉면과 관련된 데이터를 취합해보니, 주말 간 누군가 올린 독특한 냉면 인증샷이 SNS상에서 알음알음 공유가 됐고, 이를 따라 하기 위해 냉면집을 찾았던 사람의 수가 일시적으로 증가했던 것이다.’ 같은 분석 말이다. 

이처럼 사진이나 영상, 어떤 콘텐츠가 게시가 특정한 시기에 증가했다는 식의 비정형 데이터는 일반적인 데이터베이스 관리 시스템에 저장하기 어렵고, 분석하기는 더더욱 어렵다. 그러나 불가능할 것 같던 온갖 데이터를 취합하고, 적절한 분석 도구와 방법론을 도입해 무의미하게 버려지던 데이터에서 반짝이는 가치가 발견되는 과정이야 말로 빅데이터의 가장 본질적인 매력이다.

어쨌든 냉면 이야기는 기초적인 개념 이해를 위한 아주 단순한 예시다. 진짜 빅데이터의 세계에서는 이와 비교할 수도 없이 방대한 정보가 수집되며, 그 데이터 더미를 분석하기 위한 각종 기술과 도구들 역시 빠르게 발전하고 있다. 

 

아버지도 모르는 딸의 임신, 질병 센터도 몰랐던 독감 유행

산업과 경영, 정치 현장 등 이제 거의 모든 분야에 적용되고 있는 빅데이터 분석. 가장 대표적인 영역이 전자상거래와 광고 산업이다. 이곳에서 빅데이터 분석 결과는 보통 추천(큐레이션)이나 맞춤형 서비스 등의 이름으로 불리는데, 이런 개인화 서비스는 소비자에게 대체로 유용한 정보를 주지만 그 정도가 과하면 때때로 불쾌감을 유발하기도 한다. 

미국에는 빅데이터와 관련된 흥미롭고 유명한 사례가 많다. 먼저 2012년 미국에서는 타깃(Target)이란 대형마트 브랜드가 한 여고생에게 유아용품 할인 쿠폰을 보낸 일이 있었는데, 당시 이를 본 여학생의 아버지는 마트에 찾아가 ‘미성년자 딸에게 임신을 부추기는 거냐’며 크게 화를 냈다고 한다. 당시 영문도 모른 채 욕을 먹은 마트 담당자는 일단 정중히 사과를 하고 남성을 돌려보냈지만 다시 며칠 뒤, 자신이 돌려보낸 남성으로부터 뜻밖의 사과를 받게 된다. 알고 보니 그의 딸이 정말로 임신 중이었던 것. 과연 어떻게 된 일일까? 

타깃은 고객의 구매 형태를 크게 25가지로 나누고 그에 맞춘 구매 이력을 분석해 고객별 맞춤 홍보 전략을 만드는 시스템으로 해당 여고생의 임신 사실을 추측할 수 있었다고 밝혔다. 여학생의 온라인 활동 기록, 임산부들이 자주 쓰는 무향 로션과 옷에 대한 구입 기록 등, 여러 경로를 통해 수집된 정보를 바탕으로 그녀가 임산부라고 추측했다. 이에 맞춤형 홍보 차원에서 그녀에게 유아용품 할인 쿠폰을 보냈던 것이다. 심지어 타깃은 당시 그녀가 임신 3개월 정도라는 사실까지 파악하고 있었다고 한다. 

이보다 앞선 2008년, 버락 오바마가 미국 최초의 흑인 대통령으로 당선되던 돌풍의 밑바탕에는 빅데이터 수집과 분석이 있었다는 이야기도 유명하다. 당시 인기 없는 무명 의원에 불과했던 버락 오바마의 선거 캠프는 빅데이터를 활용한 새로운 접근 전략을 펼쳤다.

바로 자신의 잠재적 유권자로 판단되는 이들을 향한 대규모 설문 조사 결과와 이전 선거의 결과, 유권자의 나이, 지역, 인종, 학력, 소득, 주택, 교육 등 그들이 수집할 수 있는 최대한의 데이터를 모은 뒤, 이를 다각도로 분석해 유권자 개개인에게 가장 최적화된 공약 제시와 접근법을 택하는 전략이다. 당시만 해도 주로 지역 단위 유세가 일반적이었던 시절, 데이터를 활용한 개인 맞춤형 정치의 시대를 연 오바마는 결국 모두의 예상을 엎고 미국 최초의 흑인 대통령이란 타이틀을 거머쥘 수 있게 됐다. 

좀 더 과거로 돌아가 보자. 큰돈이 오가는 프로 스포츠의 세계에서도 빅데이터는 막강한 위력을 발휘한다. 과거 메이저리그에서 타자의 능력을 판단하는 가장 중요한 기준은 바로 타율과 스카우트의 보고서였다. 하지만 만년 하위권 팀이었던 오클랜드 애슬래틱스는 철저한 선수 데이터 수집과 분석에만 집중해 타율 대신 출루율이 높은 선수들로 팀을 재편하는 시도를 했는데, 결과는 놀라웠다. 

오클랜드 애슬래틱스는 모두가 놀랄 만큼의 향상된 경기력을 보여주며 단번에 메이저리그 최강팀으로 도약하는 데 성공한다. 비록 수년 후 오클랜드의 전략을 간파한 기존 강팀들에 정상의 자리를 다시 내주긴 했지만, ‘머니볼’이란 영화로도 제작된 오클랜드의 이야기는 촘촘한 데이터 수집과 창의적 관점을 더한 분석이 만들어 낼 수 있는 데이터의 가치와 힘에 대해 잘 보여준 사례로 꼽힌다.

또한 빅데이터는 어떤 흐름을 예측하는 기준이 되기도 한다. 과거 구글은 미국 대서양 연안 중부 지역에 독감이 유행하리란 사실을 질병통제센터보다 무려 2주일이나 앞서 정확하게 예측한 일이 있다. 이는 구글이 자사의 검색엔진에서 독’감 증상을 보이는 환자가 늘어날수록 독감과 관련된 검색량도 늘어난다’는 점과 ‘비슷한 키워드 검색이 밀집되는 지역이 있다.’는 점에 착안한 예측이었는데, 이 일은 빅데이터가 이미 일어난 일에 대한 사후 분석뿐 아니라, 가까운 미래에 일어날 사건을 예측하거나 예방하는 근거로도 활용될 수 있다는 점을 보여주었다. 

이 밖에도 현재 유튜브의 맞춤형 동영상 추천이나 내 페이스북에 표시되는 내가 좋아하는 이야기들, 인공지능 스피커가 제안하는 음악, 스스로 목적지를 찾고 장애물을 피해 운전하는 자율주행차 기술 등도 모두 크고 작은 빅데이터 분석 결과에 기초해 만들어지고 있다.

 

빅데이터가 만들어지는 과정

빅데이터는 크게 데이터 수집과 저장, 분석, 시각화 단계를 거쳐 최종 제품이나 서비스에 적용된다. 먼저 데이터 수집의 경우, ▲웹에서 텍스트를 검색하고 수집하는 크롤링 ▲웹 서비스 운영 주체가 정보를 제공하는 오픈 API 활용 ▲사물인터넷 기기에 탑재된 센서에서 출력되는 정보 취합 ▲기존 DB에서의 추출 등의 방식이 있고, 저장은 대용량 빅데이터를 효율적으로 관리하기 위한 ‘분산 파일 시스템’이 주로 사용된다. 

아파치 하둡 로고

분산 파일 시스템은 보통 대량의 데이터를 하나의 시스템에서 처리할 경우 많은 처리 비용과 시간이 소모되기 때문에 데이터를 적절히 분류하고 다수의 컴퓨터, 혹은 클라우드에 분할 저장한 뒤, 용도에 맞게 활용하는 시스템을 말한다. 현재 빅데이터 분야에서 가장 유명한 분산 파일 저장/분석 시스템은 아파치 하둡(Hadoop)과 기존의 맵리듀스(MapReduce)를 대체하고 있는 아파치 스파크(Spark)다.

다음으로 수집된 데이터를 분석하는 과정에는 프로그래밍 언어가 필요하다. 대표적인 것이 ‘R’이다. R은 애초에 통계와 그래프 작업을 위해 만들어진 언어라 대용량 데이터 분석에 뛰어나고 관련 개발자 생태계가 잘 구성된 것이 특징이다. 또 R은 이어질 데이터 시각화에서도 괜찮은 성능을 보여주며, 대체 언어로는 범용성이 좀 더 높은 ‘파이썬(Python)’이 있다. 

이와 함께 앞서 언급했던 데이터 사이언티스트가 이 단계에서 프로그래밍 언어와 분석 도구를 활용해 서로 상관관계가 있는 데이터셋을 찾고, 이 사이에서 다시 특정한 패턴이나 의미를 도출하는 일을 한다. 이때 이들이 얼마나 쓸모 있는 정보를 도출해내는가에 따라 해당 빅데이터의 가치도 함께 결정되는 만큼, 분석은 빅데이터의 전체 생애 주기에서도 가장 중요한 단계로 꼽힌다.

마지막으로 분석된 빅데이터를 알아보기 쉽게 표현해주는 시각화(Visualization) 과정이 있다. 아무리 좋은 데이터라도 그 의미를 알 수 없고 눈에 잘 읽히지 않아 버려진다면, 이전까지의 모든 과정은 한낱 헛수고가 되고 만다. 따라서 시각화 과정의 주요 목표는 데이터를 크게 시간, 분포, 관계, 비교, 공간 등의 구분과 그래프, 차트, 맵핑 등을 활용해 데이터를 최대한 사람이 알아보기 좋게 편집하는 것에 초점이 맞춰져 있다.

다만 빅데이터 시각화 툴은 이전 단계의 도구들과 달리 그 종류가 매우 다양하다. 게다가 각각의 툴이 제공하는 특화 기능도 모두 다르므로, 자신이 직접 여러 툴을 사용해본 뒤 자신에게 가장 적합한 기능을 제공하는 툴을 선택하는 것이 바람직하다. 참고로 몇몇 유명한 시각화 툴을 꼽자면, ‘구글 차트’, ‘Tableau’, ‘Qlikview’, ‘FusionChart’, ‘Datawrapper’ ‘Plotly’ 등이 거론된다.

Tableau 시각화 화면 (사진=Tableau.com)

빅데이터의 진짜 가치는 사람이 만든다

끝으로 어떤 도구나 인공지능이 아무리 우수하다고 한들, 무수한 데이터 더미에서 가치를 찾아내고, 그것을 어디에 어떻게 적용해 세상을 바꿀지에 대한 선택은 여전히 사람의 몫이란 사실을 기억하자. 우리가 데이터를 부르기 전, 데이터는 결코 스스로 꽃이 되지 않는다는 사실, 우리가 데이터에서 아무런 가치도 발견하지 못한다면 빅데이터는 언제든 잡데이터가 될 수 있다는 사실을 말이다. 

 

이 기사를 공유합니다
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사