vSAN Networking – Teaming for Performance

출처: https://blogs.vmware.com/cloud-foundation/2025/05/27/vsan-networking-teaming-for-performance

vSphere는 여러 네트워크 인터페이스 카드(NIC) 포트를 함께 사용하는 다양한 방법을 제공해 왔지만, vSAN에 가장 적합한 옵션은 무엇일까요? 네트워크 토폴로지에서 vSAN 구성과 관련된 몇 가지 핵심 사항을 살펴보겠습니다. 이 글은 모든 네트워크 팀 구성 옵션을 포괄적으로 분석하는 것이 아니라, VCF 환경에서 vSAN에 사용할 수 있는 최적의 옵션을 이해하기 위한 참고 자료일 뿐입니다.

여기에 설명된 개념은 “vSAN Networking – Network Topologies,” “vSAN Networking – Network Oversubscription”, “vSAN Networking – Optimal Placement of Hosts in Racks.” 게시물에서 찾은 정보를 기반으로 합니다 .

팀 구성의 목적

NIC 포트 티밍은 VM 트래픽, vMotion이나 vSAN과 같은 VMkernel 트래픽 등 하나 이상의 작업을 위한 리소스로 두 개 이상의 NIC 포트를 사용하는 vSphere 구성을 의미합니다. 티밍은 다음 중 하나 또는 둘 다를 달성하려고 시도합니다.

  • 중복성. 호스트의 NIC 포트 또는 호스트의 NIC 포트에 연결된 스위치에 장애가 발생할 경우 복원력을 제공합니다.
  • 성능. 동일한 트래픽을 여러 링크에 분산함으로써, 정상적인 작동 조건에서 성능을 향상시킬 수 있는 일종의 대역폭 통합을 제공할 수 있습니다.

이 글에서는 성과를 위한 팀워크라는 주제에 초점을 맞춥니다.

일반적인 팀 구성 옵션

vSAN에 적합한 팀 구성 옵션은 환경 및 선호도에 따라 다소 달라지지만, 이러한 옵션에는 vSAN과 특히 관련된 중요한 장단점이 있습니다. vSAN 8 U3부터 vSAN은 vSAN 트래픽용으로 태그된 호스트당 하나의 VMkernel 포트 사용을 지원합니다. vSAN 트래픽용으로 태그된 단일 VMkernel 포트를 사용하는 경우 가장 일반적인 세 ​​가지 접근 방식은 다음과 같습니다.

  • Active/Standby 구성을 사용하는 단일 vSAN VMkernel 포트. 이 구성은 단일 VMkernel 인터페이스에 두 개 이상의 업링크를 사용하며, 한 업링크는 “활성”으로 구성되고 다른 업링크는 “대기”로 구성됩니다. 이 팀 구성 옵션은 가장 일반적이고 모든 vSAN 클러스터 배포에서 선호되는 구성입니다. 이 구성은 간단하고 강력하며 vSAN과 같은 VMkernel 트래픽에 이상적입니다. 특히 Clos 스타일 스파인-리프 네트워크에서 중요한 미리 정해진 경로를 제공하기 때문입니다. 스토리지 트래픽은 안정적이고 일관된 통신을 위해 결정적인 경로를 선호합니다. 이 옵션은 예측 가능한 트래픽 흐름에는 효과적이지만, vSAN용으로 태그 지정된 단일 VMkernel 포트는 vSAN 트래픽에 호스트당 하나의 업링크만 사용합니다. 대역폭 집계는 제공하지 않습니다. 일반적으로 이 VMkernel 포트에서 “대기”로 할당된 업링크는 vMotion과 같은 다른 서비스를 제공하는 다른 VMkernel 포트 트래픽 유형과 함께 “활성”으로 할당되어 정상적인 작동 조건에서 링크를 효율적으로 활용합니다.
  • Load Based Teaming (LBT)을 사용하는 두 개의 활성 업링크가 있는 단일 vSAN VMkernel 포트 . 이 구성은 두 개 이상의 업링크를 사용하며 “물리적 NIC 부하 기반 경로”를 사용하여 업링크를 선택합니다. 이 옵션은 하이퍼바이저 계층의 링크 집계로 생각할 수 있습니다. 이 옵션은 주로 VMkernel 트래픽이 아닌 VM 포트 그룹에서 사용하도록 설계되었습니다. VMkernel 트래픽에 이 옵션을 사용할 경우의 이점은 비교적 미미하며, 높은 수준의 일관된 스토리지 성능에 대한 결정적 경로를 제공하지 않으므로 스토리지 트래픽에 문제가 될 수 있습니다. 현재 VCF의 기본값이지만 vSAN HCI 또는 vSAN 스토리지 클러스터에서 vSAN에 대해 태그가 지정된 VMkernel 포트에는 권장되지 않습니다. VCF에서 vSAN에 대해 태그가 지정된 VMkernel 포트를 위에 설명된 활성/대기 배열로 재정의해도 문제 없습니다.
  • Link Aggregation (LACP)를 사용하는 단일 vSAN VMkernel 포트 . 이 구성은 고급 해싱과 함께 두 개 이상의 업링크를 사용하여 링크 전체에서 여러 네트워크 연결 세션의 균형을 조정합니다. 이를 통해 어느 정도 처리량이 향상될 수 있지만, 제대로 작동하려면 네트워크 스위치와 호스트에 대한 구성이 필요합니다. 효과는 매우 다양하며 네트워크 스파인에 더 많은 트래픽이 발생할 수 있습니다. 이 구성은 위의 옵션만큼 일반적으로 사용되지 않습니다. 또한 VMware Cloud Foundation을 사용할 때 옵션으로 지원되는 기능도 제한적입니다.

사용 중인 VCF 버전에서는 vSAN 트래픽을 LBT를 사용하여 Active/Active로 전환하는 팀 구성 정책이 기본적으로 적용될 수 있습니다. VCF의 일반적인 기본 구성은 VDS가 다양한 트래픽 유형을 수용할 수 있도록 허용합니다. vSAN에서도 작동하지만, 이 팀 구성 옵션은 모든 유형의 VMkernel 트래픽 성능에 최적화되어 있지 않습니다. vSAN 트래픽용으로 태그 지정된 VMkernel 포트는 최적의 성능과 일관성을 위해 “Route based on originating virtual port ID”을 사용하여 Active/Standby를 사용해야 합니다. 이는 VCF에서 지원되는 구성 변경 사항이며, VCF의 사용자 지정 VDS 배포 옵션을 사용할 때 선택할 수 있습니다. 자세한 내용은 “VMware Cloud Foundation 설계 가이드”를 참조하십시오.

호스트당 여러 VMkernel 포트에 백엔드 vSAN 트래픽을 위한 태그를 지정할 수 있습니까? 스위치 쌍이 파이버 채널 패브릭과 유사한 방식으로 완전히 에어갭(air-gap)되어 있는 매우 특수한 경우에만 가능합니다 . 이 구성은 vSAN 8 U3 이하의 표준 토폴로지에서는 일반적이지 않으며 권장되지 않습니다 .

팀 구성과 스파인-리프 네트워크에 미치는 영향

vSAN 호스트에서 사용되는 팀 구성 선택은 무해한 선택처럼 보일 수 있지만, 사용 중인 네트워크와 vSAN의 성능에 상당한 영향을 미칠 수 있습니다. Clos 스타일 스파인 리프 설계에서는 두 리프 스위치 간에 상호 연결이 없을 수 있습니다. 호스트가 두 개의 업링크 팀을 사용하는 경우, 스위치 장애 발생 시 연결을 보장하기 위해 업링크가 두 개의 ToR 스위치에 연결됩니다. 액티브/액티브 LBT 구성에서 이는 상호 연결을 사용하는 경우 ToR 리프 스위치에 남아 있을 트래픽의 약 절반이 스파인을 통해 이동할 수 있음을 의미합니다 . 이는 설계에서 고려되지 않으면 추가 지연이 발생하고 스토리지 성능과 일관성이 저하됩니다. 동일한 문제가 LACP에도 적용됩니다. LACP는 두 ToR 스위치 간에 상호 연결이 있다고 가정하며, 상호 연결이 없는 환경에서는 트래픽이 스파인을 통해 이동하거나 LACP 본드를 완전히 끊을 수 있습니다.

그림 1. 스파인-리프 토폴로지에 대한 티밍의 영향.

실제로 일부 스파인-리프 구성에서는 ToR 스위치가 MLAG 또는 VLTi와 같은 상호 연결로 연결됩니다. 이는 가정해서는 안 되며, 스파인-리프 네트워크에서 반드시 바람직한 특성도 아닙니다. 스파인-리프 네트워크에서는 일반적으로 스패닝 트리(STP)와 같은 차단 메커니즘이 도입되기 때문입니다.

성능 향상을 위한 링크 애그리게이션은 적절한 방법을 사용하여 적절한 환경에서 분명 유익할 수 있습니다. 하지만 이러한 이점이 종종 오해되어, 예상보다 더 큰 비용을 초래하는 상황에서 오용되는 경우가 많습니다. 더 높은 네이티브 링크 속도 대신 링크 애그리게이션을 사용할 때 흔히 간과되는 네 가지 측면을 살펴보겠습니다.

  • 포트 사용량이 높습니다. 링크를 통합하려면 포트/링크 사용에 많은 비용이 발생합니다. 이로 인해 스위치의 포트 용량이 감소하여 랙에 있는 호스트 수가 제한될 수 있습니다.
  • 성능 향상이 제한적입니다. 링크 집계 옵션은 알고리즘 기반 부하 분산을 통해 얻는 성능 측면에서도 한계가 있습니다. LACP와 같은 부하 분산 링크 집계에서는 1+1이 2가 되지 않습니다. 이 방식은 데이터 스트림 수가 많은 환경에서 더 잘 작동하는 경향이 있지만, 개별 워크로드에서는 성능 향상이 제한적입니다.
  • 비용 효율성에 대한 오해. 기존에는 노후된 10Gb 스위치가 더 비용 효율적이라고 생각했지만, 이는 사실이 아닙니다. 비용 효율성을 측정하는 한 가지 방법은 “스위치 용량”입니다. 이는 스위치가 처리할 수 있는 데이터 양을 나타내는 용어로, 일반적으로 스위치 수준에서 초당 기가비트(Gbps) 또는 초당 테라비트(Tbps) 단위로 측정됩니다. 10Gb 스위치의 총 비용은 다소 낮을 수 있지만, 더 빠른 스위치는 스위칭 용량을 2배에서 10배까지 제공할 수 있으므로 Gbps당 가격은 더 저렴합니다. 서버에서 10Gb보다 빠른 NIC를 선택하면 비용은 1% 미만으로 변동하지만 성능은 2.5배에서 10배까지 향상될 수 있습니다.
  • 자원 고갈. CPU, 메모리, 스토리지 용량이 엄청나게 큰 신규 서버는 네트워크 제약으로 인해 하드웨어 성능을 제대로 활용할 수 없습니다. 기존 서버와 네트워크 처리량을 균형 있게 조정하면 총 호스트 수를 줄일 수 있으며, 이는 자본 비용, 서버 설치 공간, 냉각 시스템, 네트워크 포트 사용량을 줄이는 데 도움이 됩니다.

그림 2. 오래되거나 규모가 작은 네트워크의 집계에 따른 숨겨진 비용.

이러한 이유로, 특히 10GbE와 관련하여 링크 어그리게이션에 의존하기보다는 더 높은 기본 링크 속도(25Gb 또는 100Gb)를 선택하는 것이 좋습니다. 23년 전 10GbE가 출시되었을 당시 서버의 CPU는 단일 코어로 구성되었고 메모리 용량은 현재의 20분의 1에서 40분의 1 수준이었습니다. 25GbE가 거의 10년 동안 사용되어 온 지금, 데이터 센터에서 10GbE의 효용성은 거의 사라졌습니다.

vSAN 네트워킹에 대한 자세한 내용은 vSAN Network Design Guide를 참조하십시오 . VCF 환경의 경우 ” VMware Cloud Foundation용 vSAN 네트워크 설계 “를 참조하십시오.

성능 및 이중화를 위한 팀 구성은 일반적으로 두 개 이상의 물리적 NIC를 사용한다고 가정하며, 각 NIC에는 2~4개의 NIC 포트가 있을 수 있습니다. vSAN 호스트에는 총 몇 개의 포트가 있어야 할까요? 답은 일반적으로 다음 사항에 따라 달라집니다.

  • 워크로드 요구량. 비교적 유휴 상태인 VM을 제공하는 환경은 복잡하고 리소스 집약적인 애플리케이션을 호스팅하는 환경만큼 많은 워크로드를 요구하지 않습니다.
  • 업링크의 기본 대역폭. 기본 대역폭 속도가 높을수록 업링크 팀에서 실행되는 여러 서비스(vMotion, VM 포트 그룹 등) 간의 경합 가능성을 줄이는 데 도움이 됩니다.
  • 사용되는 스토리지 서비스. 일반적으로 스토리지 서비스용으로 NIC 포트 한 쌍을 전용으로 사용하는 것이 가장 좋은 결과를 가져옵니다. 이는 사용하는 스토리지 솔루션과 관계없이 일반적인 관행입니다.
  • 보안/격리 요구 사항. 일부 환경에서는 업링크 팀을 다른 서비스나 테넌트로부터 격리해야 하는 보안 요구 사항이 있을 수 있습니다.
  • ToR 스위치의 포트 수. 경우에 따라 ToR 스위치가 랙에서 사용할 수 있는 호스트 업링크 수를 제한하는 요인이 될 수 있습니다. 예를 들어, 2×32 포트 ToR 스위치 한 쌍은 랙 내 호스트에 64개의 포트를 제공합니다. 랙당 최대 16개의 2U 호스트를 가정하면, 각 호스트는 최대 4개의 업링크 포트로 제한됩니다. 48개의 포트를 가진 ToR 스위치가 있다면, 랙 내 16개의 호스트 각각에서 6개의 업링크 포트를 사용할 수 있습니다. 랙당 서버 수가 적을수록 랙 내 각 호스트에서 사용할 수 있는 업링크 포트 수도 늘어납니다.

권장 사항: 호스트의 모든 업링크를 사용하지 않더라도 vSAN ReadyNode를 최소 2개의 NIC(NIC당 4개의 업링크 포트)로 구성하십시오. 이렇게 하면 vSAN 스토리지를 위한 전담 업링크 팀을 쉽게 사용할 수 있으므로 적극 권장합니다. 또한 NIC당 2개의 업링크 포트로 구성된 2개의 NIC보다 vSAN의 현재 및 향후 기능에 대해 훨씬 더 높은 유연성을 제공합니다.

요약

vSAN 호스트에 가장 적합한 네트워크 팀 옵션과 네트워크 속도를 선택하는 것은 vSAN이 워크로드에 대해 최상의 성능을 제공할 수 있는 중요한 단계입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like
Read More

vSAN v7.0U1에서 용량 관리

vSAN 7.0U1이 출시됨에 따라 이른바 “슬랙 공간(slack space)” 요구 사항에 대한 중대한 변경이 이루어졌다. Slack Space는 기본적으로 vSAN…
Read More

Flexible Topologies with vSAN Max

vSAN의 분산 아키텍처는 Stretched Cluster, 2-Node Cluster, 장애 도메인을 사용하는 클러스터와 같은 대체 토폴로지에 항상 적합했습니다. 하지만 vSAN…