출처: https://blogs.vmware.com/cloud-foundation/2025/06/10/vsan-networking-is-rdma-right-for-you
지난 게시물 시리즈에서 vSAN의 성능은 vSAN 호스트 연결에 사용되는 네트워크의 물리적 대역폭 성능뿐 아니라 설계 측면에서도 결정된다는 점을 살펴보았습니다. vSAN ESA를 사용할 때, 효율적인 네트워크 설계와 결합된 더 높은 대역폭의 네트워크는 워크로드가 오늘날의 서버 하드웨어를 최대한 활용할 수 있도록 지원합니다. vSAN 환경에 최적의 네트워크를 제공한다는 목표 하에, vSAN의 성능을 향상시키기 위해 네트워크에서 할 수 있는 다른 작업이 있는지 궁금하실 수 있습니다. 이 게시물에서는 RDMA를 통한 vSAN에 대해 살펴보고, 이것이 사용자와 사용자 환경에 적합한지 여부를 알아보겠습니다.
여기에 설명된 개념은 다음 게시물에서 찾은 정보를 기반으로 합니다. ” vSAN 네트워킹 – 네트워크 토폴로지 “, ” vSAN 네트워킹 – 네트워크 초과 구독 “, ” vSAN 네트워킹 – 랙에서 호스트의 최적 배치 “, ” vSAN 네트워킹 – 성능을 위한 팀 구성 ” 및 ” vSAN 네트워킹 – 중복성을 위한 팀 구성 “.
RDMA를 통한 vSAN 개요
vSAN은 호스트 간 통신에 IP 기반 이더넷 네트워크를 사용합니다. 이더넷 프레임(2계층)은 호스트와 해당 페이로드를 통해 TCP 기반 통신을 전달하는 논리적 기반입니다. vSAN 데이터 페이로드는 다른 데이터 페이로드 유형과 마찬가지로 이러한 패킷 내부에 위치합니다. 수년간 TCP over Ethernet은 다양한 트래픽 유형에 대해 매우 안정적이고 내구성 있는 네트워크 통신 방식을 제공해 왔습니다. 매우 열악한 설계와 환경에서도 성공적으로 통신할 수 있는 뛰어난 내구성을 자랑합니다.
하지만 이러한 뛰어난 유연성과 내구성에는 단점이 있습니다. 패킷 확인, 손실된 패킷 재시도, 그리고 모든 유형의 연결 불량 상황을 처리하는 데 사용되는 추가적인 논리 계층은 파이버 채널과 같은 무손실, 결정론적 프로토콜과 비교할 때 패킷 전달에 리소스 오버헤드와 변동성을 발생시킵니다. 이는 처리량을 감소시키고 지연 시간을 증가시킬 수 있지만, 일반적으로 설계가 부실한 환경에서 가장 크게 나타나며, 올바르게 설계된 환경에서는 대개 미미한 수준입니다.
이더넷 기반 TCP 네트워킹의 일부 특성을 상쇄하기 위해 RDMA over Converged Ethernet(특히 RoCE v2) 기반 vSAN을 사용할 수 있습니다. 이 기술은 이더넷을 사용하지만 TCP의 불필요한 복잡성을 제거하고, 통신 작업을 CPU에서 하드웨어로 이전하며, 프로세스에 대한 직접 메모리 액세스를 제공합니다. 스택이 간소화되면 게스트 워크로드에 CPU 사이클을 할당할 수 있고, 회선 전반의 지연 시간을 줄일 수 있습니다. vSAN의 경우, 최상위 성능을 향상시킬 뿐만 아니라 성능의 일관성도 향상됩니다.
그림 1. vSAN에서 RoCE v2(RDMA over Converged Ethernet)를 사용한 vSAN 사용.
vSphere Client UI의 클러스터 구성에서 RDMA 기능을 활성화하여 vSAN 클러스터에서 RDMA를 활성화할 수 있습니다. 이는 호스트 NIC 및 스위치가 RDMA를 사용할 수 있도록 모든 필수 단계를 완료했다는 것을 전제로 합니다. 이러한 장치에서 RDMA를 활성화하는 데 필요한 단계는 NIC 및 스위치 공급업체의 설명서를 참조하십시오.
RDMA 구성에 단일 문제가 발생하는 경우(예: 클러스터의 호스트가 더 이상 RDMA를 통해 통신할 수 없는 경우) 전체 클러스터가 자동으로 TCP over Ethernet으로 장애 복구됩니다.
권장 사항. vSAN ESA를 사용하는 경우에만 RDMA를 고려하십시오. RDMA를 통한 vSAN 지원은 vSAN 7 U2부터 있었지만, vSAN 8 이상에서 제공되는 ESA의 고성능 기능을 가장 효과적으로 활용할 수 있는 기술입니다.
” vSAN 네트워크 설계 ” 에서 언급했듯이 RDMA를 통해 vSAN을 사용하면 추가적인 요구 사항, 제한 사항 및 고려 사항이 발생합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
- vSAN ReadyNode는 RDMA와 함께 사용하도록 인증된 NIC를 사용해야 합니다 .
- 데이터 센터 브리징(DCB) 및 우선 순위 흐름 제어(PFC)와 같은 설정을 포함하여 RDMA와 호환되고 RDMA에 맞게 구성된 스위치입니다.
- 클러스터 크기는 호스트 32개를 넘지 않습니다.
- 다음 팀 구성 정책 중 하나를 사용해야 합니다. “Route based on originating virtual port” 또는 “Route based on source MAC hash”. RDMA에서는 LACP 또는 IP 해시 사용이 지원되지 않습니다.
- 동일한 업링크에서 TCP와 RDMA를 혼합하는 대신 RDMA용 전용 NIC 포트를 사용하는 것이 더 좋습니다.
- 2노드 클러스터, 스트레치드 클러스터, vSAN 데이터스토어 공유, vSAN 스토리지 클러스터와 호환되지 않습니다.
- VCF 5.2에서는 RDMA를 통한 vSAN이 지원되지 않습니다. SDDC Manager 워크플로에 통합되지 않았으며, vSAN 기반 클러스터에 RDMA를 구성하는 방법을 제공하지 않습니다. vCenter Server를 사용하여 vSAN 클러스터에 RDMA를 구성하려는 후속 시도는 VCF 5.2에서 지원되지 않습니다.
vSAN과 함께 사용할 RDMA 설치에 대한 자세한 내용은 KB 382163: Configuring RDMA for vSAN을 참조하세요 .
RDMA를 통한 vSAN의 성능 향상
동일한 하드웨어를 사용하는 두 클러스터를 비교했을 때, RDMA 기반 vSAN이 TCP over Ethernet을 사용하는 vSAN보다 더 나은 성능을 제공할 수 있습니다. 인텔의 게시물 ” 4세대 인텔 제온 스케일러블 프로세서가 장착된 VMware vSAN에서 RDMA를 통해 100GbE로 전환 “에서 조건에 따라 상당한 성능 향상을 확인했습니다.
권장 사항: RDTBench를 사용하여 호스트 간 RDMA 및 TCP 연결을 테스트하는 것이 좋습니다. 또한 고성능 클러스터를 프로덕션 환경에 배포하기 전에 작동 구성을 검증하는 데에도 유용합니다.
파이버 채널이 정말 황금표준일까요?
스토리지 관리자들이 파이버 채널을 높게 평가하는 데에는 이유가 있습니다. 파이버 채널 프로토콜은 한 가지, 바로 스토리지 트래픽 전송을 매우 효과적으로 수행하기 위해 특별히 설계되었습니다. 스토리지에 대한 일관되고 지연 시간이 짧은 전송을 제공하기 위해 특별히 설계된 더 얇은 스택을 가지고 있습니다. 파이버 채널을 사용하는 결정적 네트워킹은 모든 구성 요소가 미리 결정되어 조화롭게 작동하는 단일 장치처럼 작동합니다.
하지만 파이버 채널 및 무손실 네트워크를 전제로 하는 다른 프로토콜에도 무시할 수 없는 비용이 발생합니다. 상당한 비용 때문에 파이버 채널 관련 구매는 예산의 대부분을 차지하고 다른 네트워킹 투자 비용을 낭비하는 경향이 있습니다. 이는 만연한 매몰 비용을 발생시켜 의도치 않게 향후 의사 결정에 영향을 미칠 수 있습니다. 파이버 채널 패브릭은 이더넷 네트워크가 제공하는 유연성을 바탕으로 다양한 네트워크 토폴로지로 확장할 수 있는 유연성이 부족합니다.
파이버 채널은 무손실 물리적 전송을 위해 설계되었지만, 패브릭에 장애가 발생하면 의도치 않은 결과가 발생할 수 있습니다. 32GFC 사양에는 일시적인 소규모 장애를 방지하기 위해 순방향 오류 정정(FEC) 기능이 추가되었지만, 규모가 커지는 패브릭은 복잡성을 증가시켜 무손실 전송을 더욱 어렵게 만듭니다 .
파이버 채널의 장점은 절대적인 속도가 아니라 , 지점 간 데이터 전송이 예측 가능하다는 점입니다. 아래 비교에서 볼 수 있듯이, TCP over Ethernet을 사용하여 vSAN 트래픽을 전송할 때 약 10%의 오버헤드가 발생하더라도, 상용 이더넷 표준은 파이버 채널의 처리량 성능을 쉽게 충족하거나 능가할 수 있습니다.
그림 2. TCP over Ethernet을 사용하여 Fibre Channel 속도와 vSAN ESA 속도 비교.
“32GFC” 및 25GbE 이더넷과 같은 참조는 브랜드 이름을 나타내는 것이며, 회선 전체의 정확한 유효 처리량을 나타내는 것이 아닙니다. 각 표준은 각각의 오버헤드를 고려하여 오버클럭된 통신 속도를 가지고 있습니다. 이더넷의 경우, 유효 처리량은 전송되는 트래픽 유형에 따라 달라집니다. 40GbE는 2017년 이후로 거의 사용되지 않으므로 표시되지 않았습니다.
한편, 이더넷은 기존 무손실 네트워크의 취약성 없이 높은 수준의 성능을 요구하는 AI 인프라의 등장으로 다시 주목받고 있습니다. 이더넷은 환경 조건의 변화와 하드웨어 장애가 불가피한 데이터 센터의 현실적인 요구를 충족하도록 설계되었습니다.
100GbE의 상품 가격과 400GbE 하드웨어의 가용성( 800GbE가 곧 출시됨 )은 이더넷을 매우 매력적으로 만듭니다. 기존 스토리지 공급업체조차도 최근 파이버 채널에 많은 투자를 한 점점 더 많은 고객이 이더넷을 다음 스토리지 패브릭으로 고려하고 있다고 밝혔습니다. 단일 칩에서 102.4 테라비트/초를 제공하는 Broadcom의 Tomahawk 6 칩 발표는 고성능의 미래가 이더넷에 있다는 좋은 지표입니다. vSAN ESA를 사용하면 TCP over Ethernet의 인식된 성능 비용의 대부분은 네트워크 초과 구독이 없는 우수한 설계와 하드웨어의 기본 고대역폭 기능으로 상쇄될 수 있습니다. 이는 ” vSAN ESA가 대형 금융 회사의 최고 스토리지 어레이 성능을 능가한다 ” 라는 게시물에서 분명히 알 수 있으며, TCP over Ethernet을 사용하는 vSAN ESA는 파이버 채널을 사용하는 최고 스토리지 어레이보다 성능이 훨씬 뛰어났습니다.
TCP over Ethernet이 충분히 좋은가?
높은 대역폭 네트워킹을 사용하고 네트워크 오버서브스크립션(oversubscription)이 없는 우수한 네트워크 설계를 갖춘 기업이라면, TCP over Ethernet을 사용하는 vSAN이 대부분의 환경에 적합하며, 새로운 vSAN 클러스터를 구축하기 위한 최적의 시작점입니다. 이 권장 사항은 현재 vSAN over RDMA를 지원하지 않는 VCF 5.2 환경에서 vSAN을 실행하는 고객에게 적합합니다. vSAN over RDMA는 더 높은 수준의 성능을 제공할 수 있지만, RDMA의 요구 사항과 한계로 인해 사용자 환경에 가장 적합하지 않을 수 있습니다.
하지만 vSAN의 스토리지 패브릭을 결정론적 파이버 채널 패브릭처럼 성능과 일관성을 제공하도록 설정할 수 있습니다. 여기에는 다음이 포함됩니다.
- 좋은 네트워크 설계. 이더넷 네트워크를 잘 설계하면 처리량이 크게 향상되고 지연 시간은 줄어듭니다. 호스트 간에 초과 가입 없이 회선 속도의 대역폭을 제공하는 적절한 논블로킹 스파인-리프 토폴로지 는 패킷 손실 및 성능 저하를 유발하는 기타 지연을 줄여줍니다. 클러스터를 구성하는 vSAN 호스트를 적절하게 배치하면 네트워킹 효율성과 성능도 향상됩니다.
- 더 높은 대역폭. 기존 스위치는 더 이상 사용하지 마세요! 더 이상 데이터 센터에서 사용할 수 없습니다. 더 높은 대역폭의 스위치와 NIC를 사용하면 워크로드가 읽기 및 쓰기 명령과 데이터 페이로드를 경합 없이 자유롭게 전송할 수 있습니다. 이더넷 네트워크에서 일관된 전송을 위한 핵심은 이더넷이나 TCP가 리소스 부족이나 불안정한 리소스로 인해 프레임이나 패킷 전송을 재시도해야 하는 상황을 방지하는 것입니다.
- NIC 및 스위치 튜닝. NIC와 스위치는 성능에 최적화되지 않은 기본 구성을 갖는 경우가 많습니다. RDMA를 활성화하지 않고도 처음 두 가지 권장 사항을 충족한 후 성능을 향상시키고 싶다면 이 방법을 고려해 볼 수 있습니다. VMware vSphere 8.0 U1 성능 모범 사례 문서에서는 선택적 튜닝의 몇 가지 예를 보여줍니다.
vSAN 네트워킹에 대한 자세한 내용은 vSAN 네트워크 설계 가이드를 참조하십시오 . VCF 환경의 경우 ” VMware Cloud Foundation용 vSAN 네트워크 설계 “를 참조하십시오.
요약
vSAN의 성능이 더욱 강력해짐에 따라, 지속적으로 높은 수준의 성능을 제공하기 위해 네트워크에 대한 의존도가 더욱 높아집니다. RDMA 기반 vSAN은 프로토콜 스택이나 CPU에 경합이 발생할 때 더 나은 성능을 제공할 수 있지만, 기존 TCP over Ethernet을 사용하여 고성능 vSAN 클러스터를 구축할 수도 있습니다.