클라우드 비용 최적화, 데이터 보안, 수천의 동시 사용자 수용 등 강점

[테크월드=김경한 기자] 코오롱베니트(Kolon Benit)가 최근 이슈가 되고 있는 클라우드 기반의 빅데이터 플랫폼 구축 방안을 소개하고 자사의 빅데이터 플랫폼을 실제로 시연하는 웨비나(웹+세미나)를 지난 5월 28일 개최했다. 

코오롱베니트 정상섭 팀장

코오롱베니트는 엔터프라이즈 데이터 플랫폼 전문기업 클라우데라의 총판 파트너로서 CDP(Cloudera Data Platform)를 기반으로 한 실질적인 데이터 플랫폼 구축 전략을 설명했다. 

코오롱베니트의 빅데이터사업부 정상섭 팀장이 ‘통합 엔터프라이즈 데이터 플랫폼 동향과 필요성’을 소개했다. 

정 팀장은 “데이터 시대의 경쟁에서 앞서나가기 위해서 엣지부터 AI(인공지능)까지 어떠한 클라우드 기반에서도 보안과 거버넌스를 준수하면서 모든 데이터에 대한 라이프사이클을 통해서 혁신과 성장을 해야 하는 시대에 직면했다”고 밝혔다. 

그는 이로 인해 데이터 중심 기업이 되기 위해 필요한 접근 방식에는 어떤 요소들이 있는지를 설명했다. 

첫째, 어떤 데이터나 클라우드도 지원돼야 한다. 멀티 클라우드, 하이브리드 클라우드, 프라이빗 클라우드, 데이터센터, 엣지 디바이스 등 어떤 영역에서도 데이터를 가져올 수 있는 환경이 돼야 한다는 것이다. 

둘째, 데이터 라이프사이클을 지원해야 한다. 스트리밍, 데이터 엔지니어링, 데이터 웨어하우스, 머신러닝과 AI 등 전체 라이프사이클을 지원할 수 있어야 한다. 

셋째, 오늘날 보안과 거버넌스에 대한 부분이 중요해 지고 있으므로 이에 대한 대책이 필요한다. 데이터와 메타 데이터 관리, 상세한 수준의 보안, 데이터의 출처, 데이터와 워크로드의 마이그레이션 부분에서 보안대책이 필요하다.

넷째, 어떤 제품이나 벤더에도 종속되지 않아야 한다. 100% 오픈소스, 오픈 데이터 형식, 오픈 스토리니와 컴퓨팅, 오픈 APIs 기반의 접근 방식이 필요하다. 

정상섭 팀장은 빅데이터 시장이 커지면서 이에 상응해 도전과제와 위험요소가 등장하고 있다고 전했다. 그는 “초반에 빅데이터 플랫폼은 데이터를 수집하고 프로파일용으로 분석하거나 활용하는 용도로 시작됐다. 따라서 초반에는 작은 규모로 빅데이터 플랫폼이 진행됐다. 하지만 최근에는 사용자가 증가했다. 이에 따라 초반에는 특정 조직과 사람이 관여했던 반면, 오늘날은 마케팅, 신사업, 품질부에서도 관여하고 있다. 결국 워크로드, 머신러닝 활용, 데이터 등이 증가하고, 실시간 비즈니스가 활성화되고 있으며, 자동화와 보안·개인정보 준수가 필수요소로 자리매김하고 있다”고 말했다. 이런 새로운 환경의 증가는 기업에게 도전과제가 되면서, 동시에 위험요소로도 자리매김하는 추세다. 

빅데이터 시대의 도래는 다양한 이해관계자가 발생하면서 현장의 목소리를 들을 필요성이 높아지고 있다. 예를 들어, IT 부서에서는 온프레미스(On-Premise)와 클라우드 전반에서 보안 정책과 메타데이터 구조를 적용하고자 하며, 단일 창으로 여러 클러스터를 관리하길 원한다. 비즈니스 사용자는 머신러닝과 데이터 웨어하우스와 같은 셀프 서비스를 이용하고자 한다. 기업은 온 프레미스에서 클라우드와 같은 전체를 아우를 수 있는 전략을 수립하고 있는데, 클라우드로 전환했을 때 어떤 이점을 얻을 수 있을지 파악하기 어려워 이를 알기 원한다. 현장의 시스템 담당자는 온프레미스 기반의 CHD5와 HDP2를 기반으로 구축돼 있다는 점을 감안해야 한다. 

클라우데라가 고객을 대상으로 설문조사한 결과에 따르면, 80% 이상의 고객이 HDP 2.0대와 CDH 5.0대를 사용하고 있다. 하지만 올해 12월에 이런 플랫폼은 서비스가 종료될 예정이다. 

정상섭 팀장은 이를 해결할 수 있는 빅데이터 플랫폼이 CDP라고 설명했다. CDP는 어떤 클라우드 환경에서도 작동하고, 데이터의 전체 라이프사이클을 지원하고, 보안과 거버넌스를 전체적으로 관리할 수 있는 영역이 있고, 오픈소스 기반의 런타임을 구성하는 라이브러리가 구성돼 있다. 

CDP에 적용되는 주요 기술에는 다음과 같은 것들이 있다. ▲스토리지 영역과 컴퓨트 영역을 분리해 효율성, 성능, 운영 안정성 극대화 ▲영구·임시 클러스터에 대한 종합적인 데이터 거버넌스 기능 제공 ▲클라우드 비용 최적화를 위한 자동 확장, 자동 중지, 자동 실행 기능 제공 ▲단일 관리 도구에서 하이브리드와 멀티클라우드 환경 내의 분석 플랫폼 통합 관리 ▲스트리밍에서 AI부터 머신러닝까지 분석 워크로드에 최적화된 환경 제공 ▲페타바이트(Petabytes) 데이터와 수천 명 이상의 동시 사용자 수용 가능한 확장성 제공 등이 있다. 

CDP는 퍼블릭 클라우드와 프라이빗 클라우드와 같이 두 종류의 서비스를 갖고 있다. 퍼블릭 클라우드는 CDP의 모든 기능을 쓸 수 있는 영역으로, 기업에서 요구하는 주요 데이터를 분석하고 AI 기능을 제공한다. 정 팀장은 “특히 CDP의 데이터센터는 HDP와 CDH의 기능을 통합해 최적의 에코시스템 프로젝트를 제공한다”고 강조했다. 

프라이빗 클라우드는 온프레미스 영역으로, 컨테이너 기반의 실행 환경을 제공한다. CDP 퍼블릭 클아우드와 비교하면, 고객이 직접 관리하며, 클라우데라 스토리지에서 실행하면서도 기능면에선 퍼블릭 클라우드와 같은 익스피어리언스(Expierience) 기능을 제공한다. 다만, 데이터 허브 서비스는 사용할 수 없다. CDP 데이터센터와 비교하면, 프로비저닝·확장, ·관리·업그레이드가 쉽고, 완변한 멀티 테넌시(Multitenancy) 환경을 제공한다. 

이 밖에도 ▲이카일 책임은 ‘클라우데라 데이터 플랫폼(CDP) 소개와 AWS의 하이브리드 클라우드(Hybrid Cloud with AWS)’ ▲유정혁 수석의 ‘마이그레이션 방안’ ▲강민흠 책임의 ‘Ranger와 Atlas를 통한 보안·거버넌스’에 대해 CDP 데모 시연을 통해 설명했다. 

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사