Health and Performance Monitoring Enhancements in vSAN 8 U2

현대의 데이터 센터가 점점 정교해지고 규모가 커짐에 따라 기본적인 모니터링 및 문제 해결이 어려워질 수 있습니다. 환경의 본질적인 복잡성으로 인해 경험이 풍부한 관리자조차도 식별된 문제의 원인이 무엇인지 및 이를 해결하는 최선의 방법이 무엇인지 확신하지 못할 수도 있습니다. 다행히도 VMware의 엔지니어링 및 제품 설계 팀은 관리자에게 가장 유용한 정보를 의미 있고 실행 가능한 방법으로 제공하는 데 도움이 되는 방법을 끊임없이 찾고 있습니다.

vSAN 8 U2에서는 관리자가 직면할 수 있는 일상적인 활동에 도움이 되는 몇 가지 새로운 기능이 도입되었습니다. 이러한 몇 가지 개선 사항과 이러한 기능이 환경의 문제를 보다 효과적으로 파악하고 해결하는 데 어떻게 도움이 되는지 살펴보겠습니다.

최고 기여자 향상

vSAN 7 U2에서 처음 소개된 “Top Contributors” 보기는 클러스터가 제공하는 리소스에 대한 수요가 가장 높은 VM을 쉽게 식별할 수 있는 방법을 제공했습니다. 상위 기여자를 식별하는 것은 성능 문제 해결 프로세스의 일부가 될 수 있지만, 데이터를 처리하고 소비자에게 제공하기 위해 서로 의존하는 다중 계층 애플리케이션과 같은 워크로드의 상관 관계를 이해하는 데도 유용할 수 있습니다.

vSAN 8 U2는 클러스터 전체의 리소스 활용률에 대한 더 나은 통찰력을 제공하는 새로운 기능을 통해 이 보기를 개선합니다. 이 새로운 기능은 다음과 같습니다:

  • 시간 범위별 상위 기여자. 클러스터 수준에서 상위 기여자 보기를 사용하면 단일 시점이 아닌 원하는 시간 범위에서 상위 기여자의 순위를 매길 수 있습니다. 그림 1과 같이 슬라이더 버튼을 전환하면 단일 시점 동안 상위 기여자를 볼 수 있습니다.
  • 성능 메트릭이 이전됩니다. 중요 성능 메트릭은 기여하는 다른 상위 VM에 대해 동일한 메트릭과 중첩됩니다. 이는 워크로드 동작에 상관 관계가 있는지 학습하는 데 매우 유용합니다.
  • 성능 메트릭에 인접한 스택 순위 VM. 이를 통해 한 VM 대 다른 VM의 동작 및 해당 상위 기여 VM이 상주하는 호스트를 빠르고 쉽게 식별할 수 있습니다.

가장 크게 기여하는 요소는 VM, Disk 또는 호스트일 수 있으며 IOPS, 처리량 및 지연 시간을 모니터링할 수 있습니다. 흥미로운 점은 이러한 보기를 통해 몇 가지 더 복잡한 질문에 어떻게 답할 수 있느냐는 점입니다. 예를 들어, “Host(backend)” 보기를 선택하면 “TRIM/UNMAP 운영이 특정 호스트의 VM 작업에 어떤 영향을 미치는가?”와 같은 질문에 대한 답변을 제공할 수 있습니다. 또는 클러스터 전체의 호스트에서 어떤 특정 스토리지 디바이스가 가장 높은 지연 시간을 보여주고 있는지 알고 싶을 수도 있습니다. “Disk” 보기를 사용하여 클러스터를 구성하는 호스트의 다른 디바이스와 비교하여 디바이스 중 하나에서 발생하는 지연 시간이 불균형한지 확인할 수 있습니다.

이 새로운 보기는 탐색하기 쉬우며, 관리자가 일부 호스트 리소스의 사용량이 클러스터 전체의 다른 호스트 리소스에 비해 불균형적으로 소비되는 활용률 “핫 스팟”을 결정하는 데 도움이 됩니다.

NVMe 장치의 내구성 추적

VMware는 최근 vSAN 8 U1 이상에서 ESA(Express Storage Architecture)를 위한 낮은 내구성의 “Read Intensive” 플래시 디바이스를 지원한다고 발표했습니다. 이를 통해 vSAN ESA 호스트가 보다 저렴한 가격에 더 많은 용량의 NVMe 스토리지 디바이스를 사용할 수 있는 새로운 기회가 열리게 되었습니다. 하지만 낮은 내구성의 디바이스를 지원하게 되면 “vCenter Server에서 NAND 플래시 디바이스의 마모율을 모니터링할 수 있을까?”라는 의문이 제기됩니다

vSAN 8 U2를 사용하면 대답은 ‘그렇다! NVMe 기반 NAND 플래시 장치의 표준을 개선하기 위한 업계 전반의 지속적인 노력 덕분에 vCenter Server는 이제 자체 모니터링, 분석 및 보고 기술(S.M.A.R.T. 또는 SMART)을 사용하여 장치 쓰기 예상 횟수에 근접한 NVMe 스토리지 장치를 확인하고 경고할 수 있습니다. vCenter Server에는 그림 3과 같이 두 가지 새로운 경보 정의가 있습니다. 하나는 예상 내구성 또는 장치 수명의 90%로 “경고” 경보를 트리거하는 반면, 다른 하나는 장치의 예상 내구성이 초과되면 “중요” 경보를 트리거합니다.

관련 SMART 데이터는 12시간마다 쿼리되며, 이는 장치의 전반적인 마모를 추적하기에 충분한 수준입니다. SMART 데이터의 신뢰성 향상은 NVMe 기반 스토리지 장치에만 적용되지만 업계가 기존 SATA 및 SAS 인터페이스에서 탈피함에 따라 vSAN 클러스터에서 NVMe 기반 플래시 장치의 상태와 수명을 정확하게 모니터링하려는 관리자에게는 매우 흥미로운 진전입니다.

스카이라인 상태 개선 기능

vSAN 8 U1에 도입된 Skyline 상태 점수, 진단 및 업데이트 적용 기능은 vSAN 클러스터에서 확인된 문제의 우선 순위를 적절하게 정하고, 진단하고, 업데이트를 적용하는 기능을 크게 향상시켰습니다. vSAN 8 U2는 이 기능을 개선하기 위해 약간의 미묘한 기능을 추가했습니다.

먼저 트리거된 상태 검색에서 제공되는 “권장 사항”은 이제 사용된 vCenter Server 버전, 클러스터 내 vSAN 호스트 버전, 사용된 토폴로지까지 기반으로 업데이트 적용 권장 사항을 특정 환경에 맞게 조정할 수 있도록 조정됩니다. 트리거된 상태 검색에서 개선된 “권장 사항”을 통해 문제가 해결되지 않거나 무시되는 경우 보다 구체적인 정보를 제공할 수 있습니다. 이는 vSAN이 후속 문제가 발생할 경우 클러스터가 어떻게 동작하는지 더 잘 이해할 수 있기 때문입니다. 마지막으로 식별된 발견을 해결하기 위해 표시된 단계를 강화했습니다. 트리거된 대부분의 발견에는 기본 권장 사항과 함께 업데이트를 적용할 수 있는 대체 방법이 있습니다. 트리거된 상태 검색 결과에 대해 더 나은 정보를 제공하여 미해결 문제를 보다 신중하고 명확하게 해결하는 데 도움이 됩니다.

요약

vSAN은 하이퍼바이저의 완벽하게 통합된 구성 요소이므로 전체 가상화 스택에 대한 엔드 투 엔드 모니터링 기능을 제공하는 유일한 기능을 갖추고 있습니다. vSAN 8 U2에서 vSAN의 성능 모니터링 기능이 향상된 것은 물론, vSAN용 Skyline Health에 내장된 새로운 논리를 통해 이러한 통합 기능을 더욱 강화할 수 있게 되었습니다.

출처 : https://core.vmware.com/blog/health-and-performance-monitoring-enhancements-vsan-8-u2

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like