什麼是故障轉移集群? 它是如何工作的 + 解決方案
已發表: 2023-09-22需要在線交易的公司無法承受伺服器故障。 因此,這些企業尋求創建故障安全程序的方法,即使伺服器崩潰也能確保資料安全。 其中一種方法是故障轉移集群。
故障轉移群集可以由託管網域名稱系統 (DNS) 提供者解決方案進行管理; 然而,了解其機制和關鍵功能有助於限制任何故障轉移挑戰。
什麼是故障轉移集群?
故障轉移群集在一組電腦伺服器上運行,以確保伺服器應用程式的高可用性 (HA) 或連續可用性 (CA)。 此技術可確保如果一台伺服器或節點發生故障,另一個叢集節點可以隨時準備好承擔工作負載而不會造成中斷。
這種方法可以使您的伺服器工作負載保持可擴充性和可用性。 許多主要的伺服器程序,例如Microsoft Exchange 、 Microsoft SQL Server和Hyper-V ,都依賴故障轉移群集來保護自身。
有些故障轉移群集使用實體伺服器,而有些則使用虛擬機器 (VM) 。 每個人都根據伺服器應用程式的要求選擇他們需要的叢集類型。
叢集由兩個或多個節點組成,這些節點透過實體電纜或專用安全網路交換要處理的資料和軟體。 多種類型的叢集技術可用於負載平衡、儲存以及並發或平行運算。 在某些情況下,故障轉移群集與額外的群集技術結合。
故障轉移叢集的主要功能是為應用程式和服務提供CA或HA。 CA 集群也稱為容錯 (FT) 集群,即使伺服器發生故障,最終用戶也可以繼續使用應用程式和服務。 您可能會看到 HA 叢集導致的服務短暫中斷,但係統可以恢復,不會遺失數據,停機時間也很少。
為什麼故障轉移集群很重要?
透過故障轉移集群,您可以在不關閉資料庫的情況下修復不活動的節點,從而避免停機問題,同時快速修復損壞的伺服器。 此外,如果發生硬體故障,該技術會終止資料庫以保護活動節點。
故障轉移叢集還可以在發生故障時自動復原資料。 這減少了您對資訊技術 (IT) 人員的依賴,並使您的伺服器能夠快速恢復。 它還提供出色的結構化查詢語言 (SQL) 叢集可用性,並最大限度地減少停機時間。 即使發生硬體故障,故障轉移群集的自動故障轉移功能也能保留資料庫的功能。
故障轉移集群如何運作?
故障轉移叢集由伺服器應用程式的兩個基本進程組成:HA 和 CA。
CA 故障轉移群集試圖達到 100% 的可用性,而 HA 群集則力求達到 99.999%,通常稱為五個九。 每年的停機時間總計不超過 5.26 分鐘。 CA叢集具有更高的可用性,但需要更多的硬體來運行,從而增加了整體成本。
高可用性故障轉移集群
高可用性叢集是共享資源和資料的獨立電腦的集合。 故障轉移群集的節點可以存取共用儲存。 高可用性叢集中還包含一個監控鏈接,用於檢查其他伺服器的心跳或運行狀況。 心跳是僅由叢集中的節點共享的專用網路。 從外部無法存取它。
在任何時候,叢集中至少有一個節點處於活動狀態,並且至少有一個節點處於休眠或被動狀態。
在基本的兩節點佈置中,如果節點 1 發生故障,節點 2 透過心跳連接識別故障並將自己配置為活動節點。 每個節點上的叢集軟體可保證客戶端連接到活動節點。
較大的安裝可能會使用專用伺服器來管理叢集。 叢集管理伺服器始終發送心跳訊號來識別任何發生故障的節點,如果有,則通知另一個節點承擔工作。
一些叢集管理軟體工具透過將電腦和伺服器分組到叢集中來處理虛擬機器的 HA。 如果主機發生故障,另一台主機將恢復虛擬機器。
作為一個可能的單一故障點,共享儲存代表著風險。 然而,組合獨立磁碟 6 和 10 的冗餘陣列(又稱為 RAID 6 和 RAID 10)可以幫助維持服務,即使兩個硬碟發生故障也是如此。
如果所有伺服器都連接到同一電網,電力可能會成為另一個單點故障。 為每個節點提供自己的不間斷電源(UPS)可以保護它們。
連續可用性故障轉移集群
與HA範式不同,容錯集群由共享電腦作業系統(OS)的單一副本的許多電腦組成。 給予一個系統的軟體指令也會在其他系統上執行。
CA 堅持要求該組織使用已格式化的電腦設備和備用 UPS。 CA 需要運行服務的實體或虛擬系統的持續可存取且近乎完美的副本。 這種冗餘模型稱為 2N。
CA 系統可以補償多種故障。 容錯系統可以識別以下故障:
- 一個硬碟機
- 計算機中的處理單元
- 輸入與輸出 (I/O) 子系統
- 一個電源
- 網路的一個組成部分
可以及時發現故障點,並且可以立即以備份元件或方法取代其位置,而不會中斷下一個服務。
叢集軟體可以連接兩個或多個伺服器以充當單一虛擬伺服器或建置各種替代的 CA 故障轉移叢集配置。 例如,如果其中一台虛擬伺服器發生故障,其他虛擬伺服器會透過暫時從群組仲裁中刪除該虛擬伺服器來回應。 然後,虛擬伺服器會在其他伺服器之間重新分配負載,直到崩潰的伺服器準備好重新啟動。
所有實體元件均被複製的雙硬體伺服器是 CA 故障轉移叢集的替代方案。 它們在各種硬體平台上單獨並發計算,並使用監控兩台實體伺服器結果的專用節點進行同步。 雖然此解決方案提供了保護,但它可能更昂貴。
故障轉移集群功能
許多組織將故障轉移叢集用於關鍵任務應用程式。 這是因為以下特徵使故障轉移集群成為一項重要的技術。
- 可擴展性:由於故障轉移集群基於一組協作防止伺服器故障的集群,因此您可以透過新增集群來根據需要輕鬆輕鬆地進行擴展。
- 穩定性:叢集伺服器透過線路連接。 即使其中一個或多個群集因外部因素發生故障,其餘群集仍可提供服務。
- 即時監控:持續監控叢集節點,確保其正常運作。 當叢集重新啟動或轉移到另一個節點時。
- 叢集共用磁碟區 (CSV):此功能為節點在使用共用儲存時提供一致的分散式命名空間。 保持伺服器應用程式自始至終不間斷地運作至關重要。
故障轉移集群的類型
在過去十年中,故障轉移叢集取得了重大進展,許多組織現在都提供自己版本的叢集解決方案。 此處詳細介紹了一些最常見的集群服務。
VMware 故障轉移集群
VMware為VM 叢集提供了多種虛擬化技術。 vSphere vMotion 的 CA 架構在實體資料中心網路之間精確複製 VMware 虛擬機器及其網路。
VMware vSphere HA 是第二個產品,透過將虛擬機器及其主機分組到一個叢集中以實現自動故障轉移,從而為虛擬機器提供 HA。 此外,該程式不依賴 DNS 等外部元件,這減少了可能的故障點。
Windows 伺服器故障轉移叢集
Windows 伺服器故障轉移叢集 (WSFC) 方法促進了 Hyper-V 故障轉移伺服器的建立。 2016 年至 2019 年間,這項策略在 Microsoft Windows 使用者中越來越流行。 WSFC 允許叢集監控並自動提供必要的故障轉移機制。 如果伺服器發生故障,WFSC 會將叢集移至單獨的節點或嘗試重新啟動它們。 此外,其 CSV 技術提供了分散式命名空間,允許多個節點共享記憶體。
SQL伺服器
這款 Microsoft 產品隨 SQL Server 2017 一起推出,具有使用 WSFC 技術的強大 HA 解決方案。 在此上下文中,SQL Server 元件被視為 WSFC 叢集資源。 它們進一步與其他依賴 WSFC 的資源整合。 因此,WSFC 有權識別和傳達重新啟動 SQL Server 執行個體或將此類執行個體移至新節點的命令。
紅帽Linux
除了 Microsoft 之外,其他作業系統供應商也提供了自己的故障轉移叢集解決方案。 例如, Red Hat Enterprise Linux (RHEL)粉絲可以使用 HA 擴充功能和 Red Hat 全域檔案系統 (GFS/GFS2) 來建立 HA 故障轉移叢集。 支援跨越多個位置的單一集群延伸集群和多站點容災集群。 儲存區域網路(SAN)資料儲存複製通常用於多站點叢集。
故障轉移集群的應用
這種強大的機制有利於以下即時應用程式。
關鍵任務應用程式的可用性。
線上事務處理(OLTP)計算機必須具有容錯系統。 OLTP 需要完全可用性,用於航空預訂系統、電子股票交易和 ATM 銀行業務。
許多行業(例如製造、運輸和零售)都採用 CA 叢集或抗故障計算機來執行重要任務的應用程式。 電子商務、訂單管理和員工考勤系統都是例子。
對於僅需要五個九的正常運行時間的叢集應用程式和服務來說,高可用性叢集通常是可以接受的。
趙災
災難復原也受益於故障轉移叢集。 強烈建議將故障轉移伺服器託管在遠端站點,因為火災或洪水等災難會毀壞所有實體硬體和軟體。
儲存副本是一種在伺服器之間複製磁碟區以進行災難復原的技術,包含在 Windows Server 2016 和 2019 中。延伸故障轉移是一項允許故障轉移叢集跨越兩個位置的技術功能。
組織可以透過擴展故障轉移集群來在各個中心複製資料。 如果某個位置發生悲劇,所有資料都會保存在其他位置的故障轉移伺服器上。
資料庫的複製
據微軟稱,WSFC 首次在 Windows Server 2016 中啟動,旨在保護「關鍵任務」服務,例如 SQL 伺服器資料庫和 Microsoft Exchange 通訊伺服器。
對於資料庫複製,其他供應商提供故障轉移叢集技術。 例如,MySQL Cluster 有一種心跳方法,可以對叢集中的其他節點進行快速故障檢測,通常只需不到一秒,並且不會中斷客戶端的服務。
可以使用地理複製功能將資料庫複製到遙遠的站點。
故障轉移集群的好處
故障轉移叢集的概念是確保使用者體驗最小的服務中斷。 然而,故障轉移群集的其他額外好處將在下面討論。
- 提高資源可用性:如果一台智慧伺服器發生故障,叢集中的其他伺服器將承擔起負擔。 這節省了關鍵的時間和資訊。
- 戰略資源分配:您可以按照您選擇的任何方式在節點之間分配專案。 這可以最大限度地減少開銷,因為並非所有電腦都需要同時執行所有項目,讓您更自由地使用資源。
- 提高處理能力:更多的機器,更多的力量。
- 更高的可擴展性:隨著您的用戶群和報告複雜性的擴大,您的資源也會隨之擴大。
- 簡化管理:叢集使處理重要或快速變化的系統變得更加容易。
故障轉移集群的局限性
儘管故障轉移群集很重要,但它也面臨以下限制。
- 複雜的設定: Windows 的故障轉移叢集設定要求您同時處理許多網路和網路卡。 因此,部署這種方法很困難,尤其是對於初學者來說。
- 工具整合: Windows 故障轉移叢集和 Hyper-V 必須更緊密整合。 你必須調整它們中的每一個 成功完成故障轉移集群。
- Web 介面:沒有用於調整叢集參數的Web 介面。 若要存取叢集管理器功能,您必須手動登入遠端桌面。
故障轉移叢集解決方案:託管 DNS 供應商
透過與故障轉移叢集系統結合使用,託管 DNS 供應商在故障轉移事件期間將流量重新導向至備用伺服器或資料中心,確保不間斷地存取您的服務,從而實現高可用性並最大限度地減少停機時間。
排名前五名的託管 DNS 提供者:
- 雲端flare DNS
- Azure DNS
- Infoblox NIOS
- WPMU開發
- DNS管理器
* 以上是 G2 2023 年秋季網格報告中排名前五的領先託管 DNS 提供者軟體。
現代化可靠性
故障轉移叢集已成為目前 IT 基礎架構中實現高可用性和容錯的可靠且重要的選項。 儘管存在硬體故障或計劃維護,它仍然可以透過在眾多網路節點上自動分配工作負載和資源來提供持續的操作。 這項技術為您提供了另一種方式來處理業務中最重要的方面——讓每個客戶的體驗安全、愉快。
增強系統的彈性也沒有壞處!
開始使用 DNS 安全指南來制定強大的系統策略。