장애 조치 클러스터링이란 무엇입니까? 작동 방식 + 솔루션

게시 됨: 2023-09-22

온라인 거래가 필요한 기업은 서버 고장을 감당할 수 없습니다. 결과적으로 이들 기업은 서버가 붕괴되더라도 데이터를 안전하게 유지하는 안전한 절차를 만드는 방법을 모색합니다. 그러한 방법 중 하나가 장애 조치 클러스터링입니다.

장애 조치 클러스터링은 관리되는 DNS(도메인 이름 시스템) 공급자 솔루션에 의해 관리될 수 있습니다. 그러나 해당 메커니즘과 주요 기능을 이해하면 장애 조치 문제를 제한하는 데 도움이 될 수 있습니다.

장애 조치 클러스터링이란 무엇입니까?

장애 조치 클러스터링은 컴퓨터 서버 그룹에서 작동하여 서버 응용 프로그램에 대한 HA(고가용성) 또는 CA(지속적 가용성)를 보장합니다. 이 기술을 사용하면 한 서버나 노드에 장애가 발생하면 다른 클러스터 노드가 중단 없이 작업 부하를 처리할 준비가 되어 있습니다.

이 접근 방식을 사용하면 서버 워크로드의 확장성과 가용성이 유지됩니다. Microsoft Exchange , Microsoft SQL Server 및 Hyper-V 와 같은 많은 주요 서버 프로그램은 장애 조치 클러스터링을 사용하여 스스로를 보호합니다.

일부 장애 조치 클러스터는 물리적 서버를 사용하는 반면 다른 클러스터는 가상 머신(VM)을 사용합니다. 모든 사람은 서버 애플리케이션의 요구 사항에 따라 필요한 클러스터 종류를 선택합니다.

클러스터는 물리적 케이블이나 특수 보안 네트워크를 통해 처리할 데이터와 소프트웨어를 교환하는 두 개 이상의 노드로 구성됩니다. 여러 유형의 클러스터링 기술은 로드 밸런싱, 스토리지, 동시 또는 병렬 컴퓨팅에 사용될 수 있습니다. 어떤 경우에는 장애 조치 클러스터가 추가 클러스터링 기술과 결합됩니다.

장애 조치 클러스터의 기본 기능은 응용 프로그램 및 서비스에 CA 또는 HA를 제공하는 것입니다. FT(장애 허용) 클러스터라고도 알려진 CA 클러스터를 사용하면 서버에 장애가 발생하더라도 최종 사용자가 애플리케이션과 서비스를 계속 사용할 수 있습니다. HA 클러스터로 인해 서비스가 잠시 중단될 수 있지만 시스템은 데이터 손실이나 가동 중지 시간 없이 복구할 수 있습니다.

장애 조치 클러스터링이 중요한 이유는 무엇입니까?

장애 조치 클러스터링을 사용하면 데이터베이스를 종료하지 않고도 비활성 노드를 복구할 수 있으므로 중단 시간 문제를 방지하는 동시에 손상된 서버를 신속하게 복구할 수 있습니다. 또한, 하드웨어 장애가 발생하는 경우 이 기술은 활성 노드를 보호하기 위해 데이터베이스를 종료합니다.

장애 조치 클러스터링은 또한 장애 발생 시 데이터 복구를 자동화합니다. 이렇게 하면 정보 기술(IT) 직원에 대한 의존도가 줄어들고 서버를 신속하게 복구할 수 있습니다. 또한 가동 중지 시간을 최소화하면서 탁월한 구조적 쿼리 언어(SQL) 클러스터 가용성을 제공합니다. 장애 조치 클러스터링의 자동화된 장애 조치 기능은 하드웨어 고장이 발생하더라도 데이터베이스 기능을 유지합니다.

장애 조치 클러스터는 어떻게 작동하나요?

장애 조치 클러스터링은 서버 응용 프로그램에 대한 HA와 CA라는 두 가지 기본 프로세스로 구성됩니다.

CA 장애 조치 클러스터는 100% 가용성에 도달하려고 노력하는 반면, HA 클러스터는 일반적으로 파이브 나인(five nines)으로 알려진 99.999% 가용성을 달성하려고 노력합니다. 이 다운타임은 매년 총 5.26분을 넘지 않습니다. CA 클러스터는 가용성이 더 높지만 작동하려면 더 많은 하드웨어가 필요하므로 전체 비용이 증가합니다.

장애 조치 클러스터링

고가용성 장애 조치 클러스터

고가용성 클러스터는 리소스와 데이터를 공유하는 독립적인 컴퓨터의 모음입니다. 장애 조치 클러스터의 노드는 공유 저장소에 액세스할 수 있습니다. 모니터링 링크도 고가용성 클러스터에 포함되어 있어 다른 서버의 하트 비트나 상태를 확인할 수 있습니다. 하트비트는 클러스터의 노드에서만 공유되는 개인 네트워크입니다. 외부에서는 접근이 불가능합니다.

어느 시점에서든 클러스터의 노드 중 하나 이상이 활성 상태이고 하나 이상은 휴면 상태이거나 수동 상태입니다.

기본 2노드 배열에서는 노드 1에 장애가 발생하면 노드 2는 하트비트 연결을 통해 장애를 인식하고 자신을 활성 노드로 구성합니다. 각 노드의 클러스터링 소프트웨어는 클라이언트가 활성 노드에 연결되도록 보장합니다.

대규모 설치에서는 전용 서버를 사용하여 클러스터를 관리할 수 있습니다. 클러스터 관리 서버는 항상 하트비트 신호를 보내 장애가 발생한 노드를 식별하고, 장애가 발생한 경우 다른 노드에 작업을 맡도록 지시합니다.

일부 클러스터 관리 소프트웨어 도구는 시스템과 서버를 클러스터로 그룹화하여 VM용 HA를 처리합니다. 호스트에 장애가 발생하면 다른 호스트가 VM을 재개합니다.

가능한 단일 실패 지점으로서 공유 스토리지는 위험을 나타냅니다. 그러나 독립 디스크 6과 10(RAID 6 및 RAID 10이라고도 함)의 중복 어레이를 결합하면 두 개의 하드 드라이브에 장애가 발생하더라도 서비스를 유지하는 데 도움이 될 수 있습니다.

모든 서버가 동일한 그리드에 연결된 경우 전력은 또 다른 단일 실패 지점이 될 수 있습니다. 각 노드에 자체 무정전 전원 공급 장치(UPS)를 제공하면 노드를 보호할 수 있습니다.

지속적인 가용성 장애 조치 클러스터

HA 패러다임과 달리 내결함성 클러스터는 컴퓨터 운영 체제(OS) 의 단일 복사본을 공유하는 수많은 컴퓨터로 구성됩니다. 한 시스템에 주어진 소프트웨어 명령은 다른 시스템에서도 실행됩니다.

CA는 조직이 포맷된 컴퓨터 장비와 백업 UPS를 사용할 것을 주장합니다. CA에는 서비스를 실행하는 물리적 또는 가상 시스템의 지속적으로 액세스 가능하고 거의 완벽한 복제본이 필요합니다. 이 중복 모델을 2N이라고 합니다.

CA 시스템은 광범위한 오류를 보상할 수 있습니다. 내결함성 시스템은 다음의 오작동을 식별할 수 있습니다.

하드 디스크 드라이브
컴퓨터의 처리 장치
입력 및 출력(I/O)을 위한 하위 시스템
전원
네트워크의 구성 요소

장애 지점을 즉시 발견할 수 있으며, 다음 서비스를 중단하지 않고 백업 구성 요소나 방법이 즉시 대체될 수 있습니다.

클러스터링 소프트웨어는 두 개 이상의 서버를 연결하여 단일 가상 서버처럼 작동하거나 다양한 대체 CA 장애 조치 클러스터 구성을 구성할 수 있습니다. 예를 들어, 가상 서버 중 하나에 오류가 발생하면 나머지 서버는 클러스터 쿼럼에서 가상 서버를 일시적으로 제거하여 응답합니다. 그런 다음 가상 서버는 손상된 서버를 다시 시작할 준비가 될 때까지 다른 서버에 부담을 재분배합니다.

모든 물리적 구성 요소가 복제된 이중 하드웨어 서버는 CA 장애 조치 클러스터의 대안입니다. 다양한 하드웨어 플랫폼에서 별도로 동시에 계산하고 두 물리적 서버의 결과를 모니터링하는 전용 노드를 사용하여 동기화합니다. 이 솔루션은 보호 기능을 제공하지만 비용이 더 많이 들 수 있습니다.

장애 조치 클러스터링 기능

많은 조직에서는 업무상 중요한 응용 프로그램에 장애 조치 클러스터링을 사용합니다. 이는 다음과 같은 특징으로 인해 장애 조치 클러스터링이 중요한 기술이 되기 때문입니다.

확장성 : 장애 조치 클러스터링은 서버 장애를 방지하기 위해 협력하는 클러스터 그룹을 기반으로 하기 때문에 필요에 따라 새 클러스터를 추가하여 쉽고 쉽게 확장할 수 있습니다.
안정성: 클러스터된 서버는 유선을 통해 연결됩니다. 외부 요인으로 인해 하나 이상의 클러스터가 실패하더라도 나머지 클러스터는 계속 서비스를 제공할 수 있습니다.
실시간 모니터링: 클러스터 노드가 제대로 작동하는지 지속적으로 모니터링합니다. 클러스터가 다시 시작되거나 다른 노드로 전송되는 경우.
클러스터 공유 볼륨(CSV): 이 기능은 공유 스토리지로 작업하는 동안 노드가 사용할 일관되고 분산된 네임스페이스를 제공합니다. 서버 애플리케이션을 처음부터 끝까지 중단 없이 계속 실행하는 것이 중요합니다.

장애 조치 클러스터 유형

지난 10년 동안 장애 조치 클러스터링이 크게 발전하여 현재 많은 조직에서 자체 클러스터링 솔루션 버전을 제공하고 있습니다. 가장 일반적인 클러스터 서비스 중 일부가 여기에 자세히 설명되어 있습니다.

VMware 장애 조치 클러스터

VMware는 VM 클러스터를 위한 다양한 가상화 기술을 제공합니다. vSphere vMotion의 CA 아키텍처는 VMware 가상 머신과 물리적 데이터 센터 네트워크 간의 네트워크를 정확하게 복제합니다.

두 번째 제품인 VMware vSphere HA는 자동화된 장애 조치를 위해 VM과 해당 호스트를 클러스터로 그룹화하여 VM용 HA를 제공합니다. 또한 이 프로그램은 DNS와 같은 외부 구성 요소에 의존하지 않으므로 오류 가능성이 낮아집니다.

Windows 서버 장애 조치 클러스터

WSFC(Windows 서버 장애 조치 클러스터) 방법은 Hyper-V 장애 조치 서버 생성을 촉진합니다. 2016년부터 2019년 사이에 이 전략은 Microsoft Windows 사용자들 사이에서 인기를 얻었습니다. WSFC는 클러스터 모니터링을 허용하고 필요한 장애 조치 메커니즘을 자동으로 제공합니다. 서버 손실이 발생하는 경우 WFSC는 클러스터를 별도의 노드로 이동하거나 다시 시작하려고 시도합니다. 또한 CSV 기술은 여러 노드가 메모리를 공유할 수 있는 분산 네임스페이스를 제공합니다.

SQL 서버

SQL Server 2017과 함께 도입된 이 Microsoft 제품에는 WSFC 기술을 사용하는 강력한 HA 솔루션이 있습니다. 이 컨텍스트에서는 SQL Server 구성 요소가 WSFC 클러스터 리소스로 간주됩니다. 다른 WSFC 종속 리소스와 추가로 통합됩니다. 결과적으로 WSFC는 SQL Server 인스턴스를 다시 시작하거나 인스턴스를 새 노드로 이동하라는 명령을 식별하고 전달하는 권한을 갖습니다.

레드햇 리눅스

Microsoft 이외의 다른 운영 체제 공급업체에서는 자체 장애 조치 클러스터 솔루션을 제공합니다. 예를 들어, RHEL(Red Hat Enterprise Linux) 팬은 HA 확장 및 Red Hat Global File System(GFS/GFS2)을 사용하여 HA 장애 조치 클러스터를 설정할 수 있습니다. 여러 위치에 걸쳐 있는 단일 클러스터 확장 클러스터와 다중 사이트, 재해 방지 클러스터가 지원됩니다. SAN(Storage Area Network) 데이터 저장소 복제는 일반적으로 다중 사이트 클러스터에서 사용됩니다.

장애 조치 클러스터링의 응용

이 강력한 메커니즘은 다음과 같은 실시간 애플리케이션을 용이하게 합니다.

미션 크리티컬 애플리케이션의 가용성.

OLTP(온라인 트랜잭션 처리) 컴퓨터에는 내결함성 시스템이 있어야 합니다. 완전한 가용성이 요구되는 OLTP는 항공 예약 시스템, 전자 주식 거래, ATM 뱅킹 등에 사용됩니다.

제조, 배송, 소매 등 많은 산업에서는 중요한 업무용 애플리케이션을 위해 CA 클러스터나 오류 방지 컴퓨터를 사용합니다. 전자상거래, 주문 관리 , 직원 근무 시간 기록 시스템 등이 그 예입니다.

고가용성 클러스터는 99.999% 가동 시간만 필요한 클러스터링 애플리케이션 및 서비스에 적합한 경우가 많습니다.

재해 구호

재해 복구는 장애 조치 클러스터링의 이점도 제공합니다. 화재나 홍수와 같은 재난으로 인해 모든 물리적 하드웨어와 소프트웨어가 파괴되므로 장애 조치 서버를 원격 사이트에서 호스팅하는 것이 좋습니다.

재해 복구를 위해 서버 간에 볼륨을 복제하는 기술인 스토리지 복제본이 Windows Server 2016 및 2019에 포함되어 있습니다. 스트레치 장애 조치(Stretch Failover)는 장애 조치(Failover) 클러스터가 두 위치에 걸쳐 있을 수 있도록 하는 기술 기능입니다.

조직은 장애 조치 클러스터를 확장하여 다양한 센터에 데이터를 복제 할 수 있습니다. 한 위치에서 비극이 발생하면 모든 데이터는 다른 위치의 장애 조치 서버에 보존됩니다.

데이터베이스 복제

Microsoft에 따르면 WSFC는 SQL 서버 데이터베이스 및 Microsoft Exchange 통신 서버와 같은 "미션 크리티컬" 서비스를 보호하기 위해 Windows Server 2016에서 처음 출시되었습니다.

데이터베이스 복제의 경우 다른 공급업체에서 장애 조치 클러스터 기술을 제공합니다. 예를 들어, MySQL Cluster에는 클라이언트에 대한 서비스 중단 없이 클러스터의 다른 노드에 대한 빠른 오류 감지를 종종 문자 그대로 1초 이내에 빠르게 감지할 수 있는 하트비트 방법이 있습니다.

데이터베이스는 지리적 복제 기능을 사용하여 멀리 떨어진 사이트로 복제될 수 있습니다.

장애 조치 클러스터의 이점

장애 조치 클러스터의 개념은 사용자가 서비스 중단을 최소화하도록 하는 것입니다. 그러나 장애 조치 클러스터링의 다른 추가 이점에 대해서는 아래에서 설명합니다.

리소스 가용성 증가: 지능형 서버 하나에 장애가 발생하면 클러스터의 다른 서버가 그 부담을 떠맡게 됩니다. 이를 통해 중요한 시간과 정보가 절약됩니다.

전략적 리소스 할당: 원하는 방식으로 노드 간에 프로젝트를 배포할 수 있습니다. 모든 프로젝트를 동시에 실행하는 데 모든 컴퓨터가 필요한 것은 아니므로 오버헤드가 최소화되어 리소스를 보다 자유롭게 사용할 수 있습니다.

향상된 처리 능력: 더 많은 기계, 더 많은 성능.

확장성 향상: 사용자 기반과 보고서 복잡성이 증가함에 따라 리소스도 증가합니다.

단순화된 관리: 클러스터링을 사용하면 중요하거나 빠르게 변화하는 시스템을 더 쉽게 처리할 수 있습니다.

장애 조치 클러스터링의 제한 사항

장애 조치 클러스터링은 중요하지만 다음과 같은 제한 사항이 있습니다.

복잡한 구성: Windows용 장애 조치 클러스터링 구성을 위해서는 많은 네트워크와 네트워크 카드를 한 번에 처리해야 합니다. 결과적으로 이 방법을 배포하는 것은 특히 초보자에게는 어렵습니다.
도구 통합: Windows 장애 조치 클러스터링과 Hyper-V는 더욱 긴밀하게 통합되어야 합니다. 각각 조절해야 합니다 장애 조치 클러스터링을 성공적으로 완료합니다.
웹 인터페이스: 클러스터 매개변수를 조정하는 웹 인터페이스가 없습니다. 클러스터 관리자 기능에 액세스하려면 원격 데스크톱에 수동으로 로그인해야 합니다.

장애 조치 클러스터링 솔루션: 관리형 DNS 공급자

장애 조치 클러스터링 시스템과 함께 작동함으로써 관리형 DNS 공급자는 장애 조치 이벤트 중에 트래픽을 대체 서버 또는 데이터 센터로 리디렉션하여 서비스에 대한 중단 없는 액세스를 보장함으로써 고가용성을 달성하고 가동 중지 시간을 최소화합니다.

상위 5개 관리형 DNS 공급자:

클라우드플레어 DNS
Azure DNS
인포블록스 NIOS
WPMU 개발
DNS 관리자

* 위 내용은 G2의 2023년 가을 그리드 보고서에 선정된 상위 5개 관리형 DNS 제공업체 소프트웨어입니다.

신뢰성 현대화

장애 조치 클러스터링은 현재 IT 인프라 내에서 고가용성과 내결함성을 위한 안정적이고 필수적인 옵션으로 부상했습니다. 수많은 네트워크 노드에 워크로드와 리소스를 자동으로 분산시켜 하드웨어 오류나 예정된 유지 관리에도 불구하고 지속적인 운영을 제공합니다. 이 기술은 비즈니스의 가장 중요한 측면을 처리하는 또 다른 방법을 제공하여 각 고객의 경험을 안전하고 행복하게 만듭니다.

시스템의 탄력성을 강화하는 것도 나쁘지 않습니다!

강력한 시스템 전략을 위한 DNS 보안 가이드를 시작해보세요.