가치있는 데이터 활용과 사생활 보호 필요

[테크월드뉴스=김경한 기자] 1969년, 아폴로 가이던스 컴퓨터는 불과 80KB(킬로바이트, 10의 3승 바이트) 이하의 메모리로 아폴로 11호를 달에 착륙시킬 수 있었다. 50여 년이 지난 지금은 어떨까. 2020년 기준으로 전 세계에서 생성, 복사, 소비된 데이터 양이 59ZB(제타바이트, 10의 21승 바이트)일 정도로 방대한 데이터들이 생성됐다. 이를 하루로 나누면 1616억GB(10의 9승 바이트)에 해당하는 양이다. 이렇게 방대한 양의 빅데이터는 대통령선거, 맞춤형 광고, 일기예보에 쓰일 정도로 우리의 일상에 깊이 파고들고 있다. 

가치와 진실성 담는 ‘빅데이터’

빅데이터는 전통적인 데이터 프로세싱 방법으로 처리할 수 없을 정도로 대규모이거나 복잡한 데이터를 뜻한다. 여기서 빅데이터를 정의할 때 단지 데이터 양 때문이 아니라 3가지 특성(3V)을 통해 ‘빅’으로 결론짓는다. 이는 시장조사기관 가트너(Gartner)가 2012년에 제시한 ▲대규모의 크기인 볼륨(volume) ▲비표준 형식의 광범위한 범위인 다양성(Variety) ▲신속하고 효율적으로 처리하는 특성인 속도(Velocity)를 포함한다. 

가트너는 “2018년까지는 도입된 데이터 레이크(가공되지 않은 상태로 저장된 접근 가능 데이터)의 90%가 이용목적이 명확하지 않은 상태에서 수집된 방대한 데이터라 무의미하게 될 우려가 있다”고 분석했다. 데이터는 단지 모으기만 한다면 아무런 가치를 창출할 수 없는 저장물에 불과할 뿐이다. 그래서인지 SAS는 빅데이터의 특성에 가치(value)를 추가해 4V로 설명한다. 데이터가 사업의 성과로 이어지지 않는다면 데이터의 수집이나 분석이 아무런 의미가 없기 때문이다.

IBM은 진실성(Veracity)을 추가해 4V로 정의하기도 한다. 빅데이터 시대에는 방대한 데이터의 양을 분석해 일정한 패턴을 추출할 수 있지만, 정보의 양이 많아지는 만큼 데이터의 신뢰성이 떨어질 수 있다. 따라서 빅데이터를 분석할 때 기업이나 기관에서 수집한 데이터가 정확한 것인지, 분석할 가치가 있는지를 살펴볼 때 진실성(Veracity)를 확인한다. 

빅데이터를 활용하는 목적은 실시간 정보를 제공해 이를 통해 비즈니스를 개선하는 것이다. 실시간 정보 프로세싱은 일관되고 원활하게 고객에게 가치를 제공하고자 노력하는 기업의 주요 목표 중 하나다. 빅데이터에서 얻은 고급 정보를 활용하면 비용을 절감해 보다 효율적으로 고객을 확보하고 수익을 창출할 수 있는 등 비즈니스 운용의 미를 거둘 수 있다. 

 

점유율 1위 북미, 성장률 1위 아시아·태평양

마켓앤마켓(Markets and Markets)는 빅데이터 시장이 2020년 1389억 달러(약 153조 원)에서 2025년 2294억 달러(약 253조 원)으로 연평균 성장률(CAGR)이 10.6%를 기록할 것으로 예측했다. 포춘 비즈니스 인사이트(Fortune Business Insight)는 2019년 413억 3000만 달러(약 45조 원)에서 2027년 1160억 7000만 달러(약 128조 원)으로 CAGR이 14.0%에 달할 것으로 분석했다. 두 시장조사기관 모두 10% 이상의 높은 CAGR을 예측치로 나타낸 점에서 알 수 있듯이 빅데이터 시장은 향후 폭발적인 성장세가 기대된다. 

포춘 비즈니스 인사이트는 글로벌 빅데이터 시장에서 북미의 점유율이 가장 높을 것으로 예상했다. 첨단 기술의 조기 채택과 IBM, 오라클, 마이크로소프트(MS) 등 주요 핵심 기업의 존재는 빅데이터 솔루션에 대한 시장 수요를 끌어올리고 있다. 예를 들어 오라클은 2020년 2월에 클라우드 인프라 데이터 과학 서비스 플랫폼인 ‘오라클 클라우드 데이터 사이언스(Oracle Cloud Data Science)’를 출시했다. 이 서비스 플랫폼은 데이터 과학자에게 머신러닝과 데이터 과학 프로젝트를 개선하고 가속화할 수 있도록 설계된 엔드투엔드(End-to-End) 경험을 제공하는 7개의 서비스로 구성돼 있다. 

아시아·태평양 시장은 예측 기간 동안 기하급수적으로 성장할 것으로 전망된다. IoT 기기, 하둡(Hadoop), 아파치(Apache) 등과 같은 빅데이터 기술이 다양한 기업에 채택되면 시장 성장이 촉진될 것이다. 이 시장의 리더들은 자사 제품 포트폴리오를 강화하기 위한 인수합병 전략에 주력하고 있다. 

아시아·태평양 시장에 대해서는 IDC도 밝은 전망을 내놨다. IDC에 따르면(2020년 1월), 빅데이터 기술과 서비스 관련 매출이 2019~2024년 동안 CAGR이 15.6%일 것으로 보인다. 리티카 스리바스타바(Ritika Srivastava) IDC 아시아·태평양 시장 분석가는 “약 74%의 기업이 BDA(Big Data and Analytics) 솔루션에 대한 투자를 같은 수준으로 유지하거나 내년(2021년)에 늘리려고 한다. 이는 분석 솔루션이 코로나 19 동안 디지털 신뢰와 탄력성을 실현하기 위해 필수적인 비즈니스 요구 사항으로 간주됐기 때문”이라고 말했다. 

 

빅데이터 활용 사례

코로나 19는 수많은 ICT 투자의 감소를 가져왔다. 하지만 빅데이터 시장에는 긍정적인 영향을 미칠 것으로 예상된다. 기관과 정부는 코로나 바이러스 감염자에 대한 데이터와 정보를 저장하기 위해 빅데이터 기술을 채택하고 있다. 빅데이터 기술은 코로나 환자의 대량 실시간 데이터를 디지털로 저장할 수 있다. 그것은 코로나 바이러스의 통제와 확산에 대한 통찰력을 얻는 데 도움을 준다. 이 기술은 세부적인 데이터 캡처 기능으로 코로나 바이러스 확산 위험을 최소화하기 위해 유익하게 활용될 수 있다. 획득한 데이터는 코로나 19에서 향후 예방법 개발에 활용 가능할 것으로 보인다. 

빅데이터 분석 툴은 비즈니스나 단체의 생산성을 향상시키며 비용을 최소화하는 등 빅데이터 사용자가 귀중한 통찰력을 얻는데 도움을 주고 있다. 

대표적인 예는 2008년 버락 오바마 미국 대통령 후보가 선기 기간 중 사용한 경우다. 당시 오바마 후보 측은 다양한 형태의 유권자 데이터베이스를 확보해 이를 분석·활용한 ‘유권자 맞춤형 선거 전략’을 진행했다. 당시 오바마 캠프는 인종, 나이, 가구형태, 종교, 소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 차원을 넘어 과거 투표 여부, 구독 잡지, 마시는 음료 등 유권자 성향까지 전화, 개별방문, 소셜 미디어에서 유권자 정보를 수집했다. 수집된 데이터는 오바마 캠프 본부로 전송돼 유권자 데이터베이스를 온라인으로 통합 관리하는 ‘보트빌더’ 시스템의 도움으로 유권자 지도를 작성한 후 유권자 맞춤형 선거 전략을 전개한 것이다. 빅데이터의 활용은 오바마를 최초의 미국 흑인 대통령 당선시키는 데 결정적 역할을 했으며, 이후 전 세계가 빅데이터에 주목하기 시작했다. 

빅데이터의 활용은 기업에서 가장 큰 이슈다. 아마존닷컴은 모든 고객의 구매 내역을 데이터베이스에 기록하고, 이 기록을 분석해 소비자의 소비 취향과 관심사를 파악한다. 이런 빅데이터의 활용을 통해 아마존은 고객별로 추천 상품을 표시한다. 

국내에서는 K-ICT 빅데이터센터가 소개하는 삼현을 들 수 있다. 삼현은 건축용 타일과 벽돌 전문 제조업체로, 지속적인 품질개선 활동에도 불량 감소가 여전히 공장의 가장 큰 이슈였다. 수집된 데이터 분석을 통해 불량 원인을 찾아보려 했으나 내부 데이터 분석 역량의 한계 등으로 인해 의미 있는 분석 결과와 개선의 효과로 이어지지 못했다. 

그러던 중 한국지능정보사회진흥원의 ‘중소기업 빅데이터 분석·활용 지원사업’을 통해 월평균 불량률을 9.72%에서 0.3%로 감소할 수 있었다. 재무적 효과로는 월 총 생산량 12만 개를 기준으로 약 504만 원의 비용절감 효과를 얻었다. 빅데이터 활용 과정에서 삼현은 한국생산성본부와 함께 불량 유형을 선정하고 데이터를 통합, 주 원인을 분석하는 프로세스 체계를 확립했다. 향후 데이터 기반 스마트 공장으로 한 걸음 다가갈 수 있는 기회도 포착했다. 

 

가명 정보의 사생활 침해 가능성은 숙제로 남아

인터넷에 남아있는 데이터는 게시자가 삭제하지 않는 한 영원히 사라지지 않는다. 또는 이 데이터를 활용하거나 인용하는 이들로 인해 확대 재생산되기도 한다. 빅데이터의 활용이 사생활 침해로 이어질 수도 있는 것이다. 

2020년 1월 9일에는 데이터 3법이 국회 본회의에서 통과되면서 이 문제가 수면 위에 떠오르고 있다. 데이터 3법은 정보통신망법(정보통신망 이용촉진 및 정보보호 등에 관한 법률), 신용정보법(신용정보의 이용 및 보호에 관한 법률), 개인정보보호법을 말한다. 

하지만 참여연대는 데이터 3법이 “보호조치도 없이 오로지 정보활용에만 초점이 맞춰져 있는 입법”이라고 비판하고 있다. 기업들이 가명처리된 고객 정보를 정보 주체의 동의 없이 판매, 공유, 결합할 수 있도록 제한 없이 허용했기 때문이다. 이와 비슷한 문제는 실제로 최근 카카오맵 애플리케이션(이하 앱)에서 발생했다. 

지난 1월 15일 공중파 방송 SBS에 따르면 ‘카카오맵’ 서비스가 편법으로 이용자의 신상정보를 노출한 것으로 파악됐다. 카카오맵에서 즐겨찾기로 설정한 정보를 전체 공개로 해두면 다른 이용자에게 그대로 노출되는 문제가 발생한다. 이는 카카오맵 즐겨찾기 설정 단계에서 사용자가 제대로 인지하지 못할 정도로 개인정보 공개 ‘동의’ 사항을 꽁꽁 숨겨놨기 때문이다. 물론 해당 업체는 뒤늦게 즐겨찾기 신상정보를 ‘비공개’로 설정해놓긴 했다. 하지만 이런 식으로 데이터 3법의 테두리를 벗어난 사생활 침해가 발생할 여지는 충분하다. 특히 데이터 3법에서 언급한 ‘가명 정보’가 너무나 구체적이지 않고 애매모호한 개념이어서, 작정한다면 얼마든지 악용할 수 있을 것이다. 경제적 가치뿐만 아니라 사회적 가치도 높이는 데이터의 발굴과 활용이 시급해 보인다. 

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사