[알리바바 클라우드=유니크 송] 2021년, 유럽의 데이터센터 화재 사고로 인해 일부 고객의 데이터가 영구적으로 손실됐다. 디지털 혁신의 가장 핵심적인 클라우드 기술에 대한 의존도가 증가할수록 오류 상황에 대한 대비책 또한 면밀히 검토해봐야 한다. 

알리바바 클라우드 데이터센터. [사진=알리바바 클라우드]
알리바바 클라우드 데이터센터. [사진=알리바바 클라우드]

데이터센터에 발생 가능한 정전, 네트워크 단절, 자연재해 등에 대비할 수 있는 재해복구 솔루션 도입은 필수적이다. 비즈니스 개발 동향과 시스템의 특성, 투자가능한 리소스 비용을 종합적으로 고려하여 적합한 재해 복구 아키텍처 솔루션을 고려하는 것을 권장한다.

◆ 재해 복구 능력의 평가 기준

이를 위해서는, 우선 재해 복구 능력이 어떠한 기준으로 평가되는지 알 필요가 있다. 재해복구는 복구 지점 목표(Recovery point objective, RPO)와 복구 시간 목표(Recovery time objective, RTO) 두가지 요소로 평가될 수 있다. 

시간을 축으로 본 RPO와 RTO의 비교. [이미지=알리바바 클라우드]
시간을 축으로 본 RPO와 RTO의 비교. [이미지=알리바바 클라우드]

RPO는 시스템이 수용할 수 있는 최대 데이터 손실량을 나타난다. 복구 지점간 간격이 작을수록 데이터를 더 자주 백업해야 되기에 RPO가 작다는 것은 데이터의 중요성이 크다는 것을 의미한다. RPO가 작아질수록 데이터 동기화 연결고리 간 신뢰성이 높아지고 지연 시간이 짧아지는 대신 전체 운영 환경과 네트워크에 대한 부담이 크며 비용이 높다. 

반면 RTO는 애플리케이션 장애 발생부터 복구까지 시스템이 수용할 수 있는 최대 복구 시간을 나타낸다. RPO가 장애 발생 이전 시점의 데이터 손실을 나타낸다면, RTO는 장애 발생 이후의 데이터 손실을 나타내는 의미다. 마찬가지로 RTO가 작다는 것은 데이터의 중요도가 높다는 것을 의미한다. 그렇기에 RPO와 RTO 모두 고가용성 시스템 구축에 빠질 수 없는 중요한 요소다.

데이터센터의 재해복구 아키텍처, 멀티사이트 고가용성 모델. [이미지=알리바바 클라우드]
데이터센터의 재해복구 아키텍처, 멀티사이트 고가용성 모델. [이미지=알리바바 클라우드]

메인스트림 재해복구 아키텍처의 경우, 동일 리전의 대한 재해복구, 동일 리전에 대한 듀얼액티브(dual-active) 재해복구, 교차리전(cross region) 애플리케이션 듀얼액티브 재해복구와 교차리전 듀얼 액티브 재해복구 등으로 나눌 수 있다. 각 아키텍처에는 장단점이 있으며, RTO는 분 단위에서 최고 10분까지로 구분된다. 

또한, 사용자 경험을 향상하고 지역 수준의 재해 복구 기능을 갖춘 다중 사이트 고가용성(HA)의 아키텍처가 있다. 이것은 리전 수준에서 재해복구와 ‘인텔리전트 근접 레솔루션(intelligent proximity resolution)’을 제공해 사용자 경험을 향상시킨다. 

HA 아키텍처는 동일한 데이터센터의 RPC 호출에 우선 순위를 매기는 정책으로 장애 발생 시 가장 가까운 영역으로 라우팅된다. 다만 구축이 복잡하고 데이터 동기화 문제를 수반하기 때문에 어느 정도 제도 개선이 필요하다. 

예를 들어, 쓰기 작업(write operation)은 중앙으로 반환돼야 하며, 데이터가 수정된 후에는 캐시 업데이트도 해야 한다. 또한 모든 쓰기 작업은 중앙으로 반환돼야 하기 때문에 여전히 영역 간 재해 복구이며 지역 간 재해 복구 기능은 달성되지 않는다.

◆ 클라우드 기반 재해 복구 구축

클라우드 기반 재해 복구 구축. [이미지=알리바바 클라우드]
데이터센터의 재해복구 아키텍처, 멀티사이트 고가용성 모델. [이미지=알리바바 클라우드]

클라우드 기반의 재해 복구를 구축은 분석, 설계, 구현 3단계로 나뉜다. 

분석 단계에서는 복구 가능성, 리스크, 비즈니스에 미치는 영향 등을 분석하여 재해 복구의 필요성과 수준을 결정한다. 

예를 들어, 시스템의 초기 단계에서는 사용자 수에 더 많은 주의를 기울일 필요가 있지만 사용자 수가 일정 수준에 도달하면 시스템의 안정성과 감당할 수 있는 재해 수용량 등이 고려돼야 한다. 

설계 단계는 분석 단계에서 도출된 데이터를 기반으로 복구 전략을 개발하고 재해 복구를 설계한다. 

마지막으로 구현 단계에서는 팀워크, 조직 차원의 리소스 투자뿐만 아니라 특히 장애 발생 이후 복구 방법에 대한 자세한 계획을 포함해야 한다. 이는 인력 교육이 동반되는 재해 복구 대비 훈련과 재해 복구 시스템의 유지보수 등을 포함한 매우 큰 규모의 체계적인 프로젝트인 셈이다.

시스템이 클라우드에 배포되지 않은 경우 서버 마이그레이션 센터를 사용하여 전체 시스템을 클라우드로 신속하게 마이그레이션 할 수 있다. 여러 플랫폼 및 환경에서 마이그레이션을 지원할 수 있으며 원본 서버의 기본 환경에 의존하지 않는다. 

서비스 중단 없이 마이그레이션을 지원하며 모든 작업은 콘솔에서 흰색 화면 구성을 통해 가능하다. 프로세스 중 데이터 전송의 보안이 보장되고 업로드 재개 및 점진적인 마이그레이션을 지원한다. 시스템이 이미 클라우드에 있다면 ROS도 제공한다. 필터링 조건을 결정한 후 시스템을 다른 영역이나 지역으로 빠르게 복사할 수 있다.

서비스가 배포된 후에는 데이터 동기화 또는 데이터 백업에 DTS(Data Transmission Service)를 사용할 수 있다. DTS는 매우 강력하고 동종 또는 이종 데이터 소스 간의 마이그레이션과 서비스 중단 없는 마이그레이션을 지원한다. 

[이미지=알리바바 클라우드]
[이미지=알리바바 클라우드]

또한, 데이터 소스 간의 단방향 동기화 및 양방향 동기화를 지원한다. MSHA는 비즈니스를 혁신하고 DTS같은 데이터 동기화 제품을 통합할 수 있다. 단일 지역에서 여러 지역으로, 단일 클라우드에서 여러 클라우드로, 기본 및 보조에서 멀티 액티브(multi-active) 재해복구로 등 비즈니스의 전반적인 재해 복구 기능을 신속하게 구축할 수 있다. 또한 MSHA는 공공클라우드, 사설 클라우드, 하이브리드 클라우드 등 많은 실무 경험을 축적해 재해 복구를 관리하고 전환할 수 있는 콘솔을 제공한다.

DNS는 지능형 DNS 해상도를 기반으로 근접 액세스를 수행한다. 주류의 DNS 해결 서비스는 주 수준, 지역 수준, 국가 수준 등과 같이 보다 지능적인 해결 라인을 제공할 수 있다. 클라우드 데이터베이스는 고가용성 버전인 RDS와 이중 가용성 버전인 Redis 모두에 zone-level의 기본 및 보조 기능을 제공해 사용자가 직접 처리하지 않아도 된다. 원격 시나리오에서 서로 다른 지역 간의 네트워크는 클라우드 엔터프라이즈 네트워크 CEN을 통해 연결해 여러 VPC기반 네트워크를 연결할 수 있다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지