Using Fault Domains in vSAN ESA

Design and Operation Considerations When Using vSAN Fault Domains” 게시물을 통해 많은 고객이 vSAN의 선택적 장애 도메인 기능의 기본 원칙을 이해하고 이 기능을 사용하는 클러스터의 설계 및 운영에 대한 몇 가지 지침을 얻을 수 있었습니다.

하지만 이러한 개념이 vSAN의 ESA(Express Storage Architecture)를 실행하는 클러스터에서는 어떻게 달라질까요? OSA(Original Storage Architecture)를 사용하는 vSAN 클러스터와 달리 vSAN ESA 클러스터에서 이 기능을 사용할 때의 몇 가지 유사점과 차이점을 살펴보고, vSAN의 Fault Domain 기능을 사용하거나 관심이 있는 경우 ESA로 이전하는 것을 고려해야 하는 이유를 알아보겠습니다.

OSA와 ESA에서 Fault Domain을 사용할 때의 이점

ESA의 결함 도메인 개념은 OSA에서와 동일하게 유지되었습니다. 이 선택적 기능을 사용하는 경우 관리자는 각 장애 도메인이 랙 또는 데이터 클로짓과 같은 물리적 장애 경계를 나타내는 일련의 장애 도메인을 정의합니다. 나머지 작업은 vSAN이 장애 발생 시 가용성을 보장하기 위해 탄력적인 방식으로 장애 도메인 전체에 데이터를 분산하여 수행합니다. 그림 1은 vSphere Client에서 장애 도메인 기능의 구성을 보여줍니다.

그러나 ESA는 OSA로는 달성할 수 없는 방식으로 성능과 효율성을 제공할 수 있습니다. 이는 vSAN 장애 도메인 기능을 사용하는 토폴로지에 가장 확실하게 적용됩니다.

권장 사항. vSAN 장애 도메인을 사용하는 클러스터가 적절한 네트워크 요구 사항을 충족하는지 확인합니다. 장애 도메인 기능은 호스트와 장애 도메인 간의 네트워크 지연 시간이 1ms RTT를 초과하지 않아야 합니다. vSAN ESA는 네트워크가 호스트의 성능 기능을 제공할 수 있도록 하기 위해 더 높은 대역폭 요구 사항을 가지고 있습니다.

공간 효율성

ESA는 RAID-1 미러링의 성능과 함께 공간 효율적인 RAID-5/6 삭제 코딩에 데이터를 저장할 수 있으므로 성능 저하 없이 매우 효율적인 랙 수준의 복원력을 확보할 수 있습니다. 두 개의 24개 호스트 클러스터를 간단히 비교해 보겠습니다. 두 클러스터 모두 vSAN의 장애 도메인 기능을 사용하고 있으며 데이터가 랙 수준 장애로부터 보호될 수 있도록 복원력이 1이며 FTT가 1이라고 가정합니다.

그림의 왼쪽에는 장애 도메인당 4개의 호스트가 있는 6개의 장애 도메인을 사용하여 OSA를 실행하는 클러스터가 나와 있습니다. 이러한 경우 고객은 최적의 성능을 보장하기 위해 RAID-1 미러링을 사용하는 것이 일반적이었습니다. 하지만 이는 저장된 데이터 100GB당 약 200GB의 원시 용량을 소비한다는 것을 의미합니다. 이와 비교하여 그림의 오른쪽에는 장애 도메인당 4개의 호스트가 있는 6개의 장애 도메인을 사용하여 ESA를 실행하는 클러스터가 나와 있습니다. 동일한 랙 수준 복원력(FTT=1)을 달성할 수 있지만 공간 효율성과 성능이 훨씬 더 뛰어나 RAID-1을 충족하거나 초과합니다. 6개의 정의된 장애 도메인이 있는 ESA의 RAID-5 스토리지 정책을 사용하면 저장된 데이터 100GB당 125GB의 원시 용량만 소비됩니다. 이는 OSA를 실행하는 유사한 클러스터에 비해 용량을 37.5% 절약하면서도 훨씬 더 나은 성능을 제공합니다!

일부 고객은 결함 도메인 수가 가장 적기 때문에(결함 도메인은 최소 3개, 권장 개수는 4개) OSA의 결함 도메인 기능과 함께 RAID-1 미러링을 사용하기로 선택했습니다. ESA는 클러스터 크기에 따라 두 가지 RAID-5 데이터 배치 체계 중 하나를 사용하는 RAID-5용 고유한 적응형 삭제 코딩 체계를 사용합니다. ESA에서 장애 도메인 기능을 사용할 때 RAID-5 삭제 코딩은 장애 도메인을 3개까지 사용할 수 있지만, 최소 장애 도메인은 4개가 권장됩니다. 이러한 구성에서는 저장된 데이터 100GB당 150GB의 원시 용량만 사용하게 됩니다. 이는 OSA를 실행하는 유사한 클러스터에 비해 용량은 25% 절감되지만 성능은 훨씬 더 우수합니다.

네트워크 스파인 전반의 트래픽 감소

vSAN의 분리 기능 또는 vSAN의 장애 도메인 기능을 사용하지 않는 표준 vSAN 클러스터는 일반적으로 스파인 및 리프 네트워크 토폴로지에서 ToR(Top of Rack) 리프 스위치의 네트워크 리소스만 사용합니다. 대규모 클러스터의 경우 호스트 수가 랙 또는 ToR 스위치의 물리적 리소스를 초과하기 때문에 스파인 전체에 트래픽이 발생할 수 있습니다.

랙 수준의 복원력을 위해 vSAN의 장애 도메인 기능을 사용하는 경우 이 기능은 스파인 스위치를 사용하여 한 랙의 한 ToR 스위치 세트에서 다른 랙의 ToR 스위치로 vSAN 트래픽을 전달해야 하므로 스파인을 가로지르는 네트워크 트래픽을 유발합니다. 이러한 트래픽의 변화는 네트워크의 초기 용량 계획 및 설계 단계에서 고려되지 않았을 수 있습니다.

vSAN의 ESA는 네트워크를 통해 전송되기 전에 데이터를 압축하는 ESA의 기능 덕분에 ToR 리프 스위치든 스파인 스위치든 모든 네트워크 스위칭에서 I/O 페이로드 크기를 줄이는 데 도움이 될 수 있습니다. 그 결과 처리되는 각 게스트 I/O에 대해 네트워크를 통해 전송되는 데이터가 줄어듭니다.

vSAN ESA in a Stretched Cluster Topology“라는 게시물에 설명된 바와 같이 압축을 통해 확장된 클러스터 토폴로지를 개선할 수 있는 방법과 vSAN의 장애 도메인 기능을 사용한 압축의 이점은 매우 유사합니다.

설계 지침

결함 도메인 기능을 사용하는 클러스터의 설계 지침은 OSA 클러스터와 마찬가지로 ESA 클러스터에서도 매우 유사합니다.

클러스터에 권장되는 결함 도메인 수. 사용 중인 스토리지 정책에 필요한 최소값보다 하나 이상의 장애 도메인을 더 보유하는 것이 좋습니다. 예를 들어 복원력이 높은 FTT=2를 위해 RAID-6을 사용하려는 경우 RAID-6의 최소 장애 도메인 수는 6개이지만, 지속적인 랙 장애 발생 시 규정된 수준의 복원력을 회복할 수 있는 예비 장애 도메인을 확보하려면 최소 7개 이상의 장애 도메인을 보유하는 것이 좋습니다. ESA에서 RAID-5를 사용하는 클러스터에 권장되는 장애 도메인의 수는 원하는 목표에 따라 달라집니다. 패리티가 있는 더 작은 2+1 스트라이프에서 실행되는 RAID-5는 3개의 장애 도메인에서 실행할 수 있지만 위에서 언급한 바와 같이 최소 4개의 장애 도메인을 사용하는 것이 좋습니다. 패리티가 있는 4+1 스트라이프를 사용하여 공간 효율성이 더 높은 vSAN ESA의 RAID-5를 활용하려면 최소 6개의 장애 도메인이 있어야 합니다. 패리티가 있는 데이터를 5개의 장애 도메인에 분산하더라도 장애 도메인이 6개 이상 없으면 ESA가 자동으로 2+1 구성으로 변경합니다. 자세한 내용은 “vSAN 8에서 ESA를 사용한 적응형 RAID-5 삭제 코딩” 게시물을 참조하십시오.

장애 도메인 내에서 권장되는 호스트 수. 기술적인 최소값은 정의된 장애 도메인당 단일 호스트이지만, “Design and Operation Considerations when using vSAN Fault Domains” 게시물에서는 다양한 이유로 장애 도메인당 최소 3개의 호스트를 권장합니다. 이는 OSA와 마찬가지로 ESA에도 적용됩니다.

Fault Domain 대칭. 표준 vSAN 클러스터의 호스트와 마찬가지로 리소스 대칭에 대한 엄격한 요구 사항은 없습니다. 그러나 호스트 수, CPU, 메모리 및 스토리지 용량에서 합리적인 수준의 대칭을 유지하는 것이 좋습니다. 자세한 내용은 게시물을 참조하십시오: “Asymmetrical vSAN Clusters – What is Allowed, and What is Smart” 게시물을 참조하십시오.

전체 클러스터 크기. vSAN의 장애 도메인 기능은 장애 발생 시 랙 또는 룸 수준의 복원력을 제공하도록 설계되었으므로 실제로는 대규모 클러스터를 위한 것입니다. 각 장애 도메인 내에 최소 3개의 호스트와 원하는 스토리지 정책에 절대적으로 필요한 것보다 하나 더 많은 장애 도메인을 보유하는 것이 권장된다는 점을 감안할 때 현실적인 최소 호스트 수는 다음과 같습니다:

  • RAID-5(2+1 구성표와 추가 결함 도메인 1개 사용)를 사용하는 FTT=1은 12개 호스트입니다: 4개의 장애 도메인과 각각 3개의 호스트.
  • 공간 효율성이 더 높은 4+1 구성표와 추가 결함 도메인 하나를 사용하는 RAID-5를 사용하는 FTT=1은 18개 호스트입니다: 6개의 결함 도메인(각각 3개의 호스트)
  • RAID-6(4+2 구성표와 추가 결함 도메인 1개 사용)을 사용하는 FTT=2는 21개 호스트입니다: 7개의 결함 도메인, 각각 3개의 호스트.

제한 사항

OSA와 마찬가지로 vSAN의 장애 도메인 기능을 사용할 때 사용할 수 없거나 지원되지 않는 몇 가지 기능이 있습니다.

  • 예약된 용량 토글. “Understanding Reserved Capacity Concepts in vSAN” 및 “Design and Operation Considerations when using vSAN Fault Domains” 게시물에서 언급했듯이 클러스터(ESA 또는 OSA)가 장애 도메인 기능으로 구성된 경우 “운영 예약” 및 “호스트 재구축 예약” 토글을 사용할 수 없습니다. 해당 기능이 출시되기 전에는 약 25%의 여유 용량을 유지하는 것이 좋다는 vSAN의 여유 용량 권장 사항을 따르는 것이 좋습니다.
  • vSAN ESA 자동 정책 관리 기능. vSAN 8 U1의 ESA를 사용한 새로운 자동 정책 관리 기능은 현재 vSAN ESA에서 장애 도메인 기능을 사용할 때 지원되지 않습니다.

2개의 결함 도메인만으로는 vSAN의 결함 도메인 기능을 사용하여 클러스터를 구성할 수 없다는 점을 기억하십시오. 최소 3개의 결함 도메인이 있어야 하며, 권장되는 결함 도메인 수는 사용되는 RAID 데이터 배치 방식에 따라 더 늘어날 수 있습니다.

요약

vSAN의 Express Storage Architecture를 실행하는 클러스터에서 장애 도메인 기능을 사용하면 물리적 토폴로지에 맞는 고유한 복원력 기능을 제공할 수 있습니다. 그러나 ESA의 아키텍처는 vSAN의 기존 스토리지 아키텍처에서는 불가능한 공간 효율성 및 성능으로 이러한 유형의 복원력을 제공합니다

출처 : https://core.vmware.com/blog/using-fault-domains-vsan-esa

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like
Read More

vSAN Witness Host의 이해

vSAN 메뉴얼이 한글화되지 않아서, witness에 대한 한글 표기가 명확하지 않습니다. 영어사전에는 "목격자, 증인, 증명" 등의 뜻으로 나오고, 파파고…