什么是故障转移集群? 它是如何工作的 + 解决方案
已发表: 2023-09-22需要在线交易的公司无法承受服务器故障。 因此,这些企业寻求创建故障安全程序的方法,即使服务器崩溃也能保证数据安全。 其中一种方法是故障转移集群。
故障转移集群可以由托管域名系统 (DNS) 提供商解决方案进行管理; 然而,了解其机制和关键功能有助于限制任何故障转移挑战。
什么是故障转移集群?
故障转移群集在一组计算机服务器上运行,以确保服务器应用程序的高可用性 (HA) 或连续可用性 (CA)。 该技术可确保如果一台服务器或节点发生故障,另一个集群节点可以随时准备好承担工作负载而不会造成中断。
这种方法可以使您的服务器工作负载保持可扩展性和可用性。 许多主要的服务器程序,例如Microsoft Exchange 、 Microsoft SQL Server和Hyper-V ,都依赖故障转移群集来保护自身。
一些故障转移群集使用物理服务器,而另一些则使用虚拟机 (VM) 。 每个人都根据服务器应用程序的要求选择他们需要的集群类型。
集群由两个或多个节点组成,这些节点通过物理电缆或专用安全网络交换要处理的数据和软件。 多种类型的集群技术可用于负载平衡、存储以及并发或并行计算。 在某些情况下,故障转移群集与额外的群集技术相结合。
故障转移集群的主要功能是为应用程序和服务提供CA或HA。 CA 集群也称为容错 (FT) 集群,即使服务器发生故障,最终用户也可以继续使用应用程序和服务。 您可能会看到 HA 集群导致的服务短暂中断,但系统可以恢复,不会丢失数据,停机时间也很少。
为什么故障转移集群很重要?
通过故障转移集群,您可以在不关闭数据库的情况下修复不活动的节点,从而避免停机问题,同时快速修复损坏的服务器。 此外,如果发生硬件故障,该技术会终止数据库以保护活动节点。
故障转移集群还可以在发生故障时自动恢复数据。 这减少了您对信息技术 (IT) 人员的依赖,并使您的服务器能够快速恢复。 它还提供出色的结构化查询语言 (SQL) 集群可用性,并最大限度地减少停机时间。 即使出现硬件故障,故障转移群集的自动故障转移功能也能保留数据库的功能。
故障转移集群如何工作?
故障转移集群由服务器应用程序的两个基本进程组成:HA 和 CA。
CA 故障转移集群试图达到 100% 的可用性,而 HA 集群则力争达到 99.999%,通常称为五个九。 每年的停机时间总计不超过 5.26 分钟。 CA集群具有更高的可用性,但需要更多的硬件来运行,从而增加了总体成本。
高可用性故障转移集群
高可用性集群是共享资源和数据的独立计算机的集合。 故障转移群集的节点可以访问共享存储。 高可用性集群中还包含一个监控链接,用于检查其他服务器的心跳或运行状况。 心跳是仅由集群中的节点共享的专用网络。 从外部无法访问它。
在任何时候,集群中至少有一个节点处于活动状态,并且至少有一个节点处于休眠或被动状态。
在基本的两节点布置中,如果节点 1 发生故障,节点 2 通过心跳连接识别故障并将自己配置为活动节点。 每个节点上的集群软件可保证客户端连接到活动节点。
较大的安装可能会使用专用服务器来管理集群。 集群管理服务器始终发送心跳信号来识别任何发生故障的节点,如果有,则通知另一个节点承担工作。
一些集群管理软件工具通过将计算机和服务器分组到集群中来处理虚拟机的 HA。 如果主机发生故障,另一台主机将恢复虚拟机。
作为一个可能的单一故障点,共享存储代表着风险。 然而,组合独立磁盘 6 和 10 的冗余阵列(又称为 RAID 6 和 RAID 10)可以帮助维持服务,即使两个硬盘驱动器发生故障也是如此。
如果所有服务器都连接到同一电网,电力可能会成为另一个单点故障。 为每个节点提供自己的不间断电源(UPS)可以保护它们。
连续可用性故障转移集群
与HA范式不同,容错集群由共享计算机操作系统(OS)的单个副本的许多计算机组成。 给予一个系统的软件命令也会在其他系统上执行。
CA 坚持要求该组织使用格式化的计算机设备和备用 UPS。 CA 需要运行服务的物理或虚拟系统的持续可访问且近乎完美的副本。 这种冗余模型称为 2N。
CA 系统可以补偿多种故障。 容错系统可以识别以下故障:
- 一个硬盘驱动器
- 计算机中的处理单元
- 输入和输出 (I/O) 子系统
- 一个电源
- 网络的一个组成部分
可以及时发现故障点,并且可以立即用备份组件或方法替代其位置,而不会中断下一个服务。
集群软件可以连接两个或多个服务器以充当单个虚拟服务器或构建各种替代的 CA 故障转移集群配置。 例如,如果其中一台虚拟服务器发生故障,其他虚拟服务器会通过暂时从群集仲裁中删除该虚拟服务器来做出响应。 然后,虚拟服务器会在其他服务器之间重新分配负载,直到崩溃的服务器准备好重新启动。
所有物理组件均被复制的双硬件服务器是 CA 故障转移群集的替代方案。 它们在各种硬件平台上单独并发计算,并使用监控两台物理服务器结果的专用节点进行同步。 虽然此解决方案提供了保护,但它可能更昂贵。
故障转移集群功能
许多组织将故障转移集群用于关键任务应用程序。 这是因为以下特征使故障转移集群成为一项重要的技术。
- 可扩展性:由于故障转移集群基于一组协作防止服务器故障的集群,因此您可以通过添加新集群来根据需要轻松轻松地进行扩展。
- 稳定性:集群服务器通过线路连接。 即使其中一个或多个集群因外部因素发生故障,其余集群仍可提供服务。
- 实时监控:持续监控集群节点,确保其正常工作。 当集群重新启动或转移到另一个节点时。
- 集群共享卷 (CSV):此功能为节点在使用共享存储时提供一致的分布式命名空间。 保持服务器应用程序自始至终不间断地运行至关重要。
故障转移集群的类型
过去十年中,故障转移集群取得了重大进展,许多组织现在都提供自己版本的集群解决方案。 此处详细介绍了一些最常见的集群服务。
VMware 故障转移集群
VMware为VM 集群提供了多种虚拟化技术。 vSphere vMotion 的 CA 架构在物理数据中心网络之间精确复制 VMware 虚拟机及其网络。
VMware vSphere HA 是第二个产品,通过将虚拟机及其主机分组到一个集群中以实现自动故障转移,从而为虚拟机提供 HA。 此外,该程序不依赖于 DNS 等外部组件,这减少了可能的故障点。
Windows 服务器故障转移集群
Windows 服务器故障转移群集 (WSFC) 方法促进了 Hyper-V 故障转移服务器的创建。 2016 年至 2019 年间,这一策略在 Microsoft Windows 用户中越来越流行。 WSFC 允许集群监控并自动提供必要的故障转移机制。 如果服务器发生故障,WFSC 会将集群移至单独的节点或尝试重新启动它们。 此外,其 CSV 技术提供了分布式命名空间,允许多个节点共享内存。
SQL服务器
这款 Microsoft 产品随 SQL Server 2017 一起推出,具有使用 WSFC 技术的强大 HA 解决方案。 在此上下文中,SQL Server 组件被视为 WSFC 群集资源。 它们进一步与其他依赖于 WSFC 的资源集成。 因此,WSFC 有权识别和传达重新启动 SQL Server 实例或将此类实例移动到新节点的命令。
红帽Linux
除了 Microsoft 之外,其他操作系统供应商也提供了自己的故障转移集群解决方案。 例如, Red Hat Enterprise Linux (RHEL)粉丝可以使用 HA 扩展和 Red Hat 全局文件系统 (GFS/GFS2) 来建立 HA 故障转移集群。 支持跨越多个位置的单集群延伸集群和多站点容灾集群。 存储区域网络(SAN)数据存储复制通常用于多站点集群。
故障转移集群的应用
这种强大的机制有利于以下实时应用程序。
关键任务应用程序的可用性。
在线事务处理(OLTP)计算机必须具有容错系统。 OLTP 需要完全可用性,用于航空预订系统、电子股票交易和 ATM 银行业务。
许多行业(例如制造、运输和零售)都采用 CA 集群或抗故障计算机来执行重要任务的应用程序。 电子商务、订单管理和员工考勤系统都是例子。
对于仅需要五个九的正常运行时间的集群应用程序和服务来说,高可用性集群通常是可以接受的。
赈灾
灾难恢复也受益于故障转移集群。 强烈建议将故障转移服务器托管在远程站点,因为火灾或洪水等灾难会毁坏所有物理硬件和软件。
存储副本是一种在服务器之间复制卷以进行灾难恢复的技术,包含在 Windows Server 2016 和 2019 中。延伸故障转移是一项允许故障转移群集跨越两个位置的技术功能。
组织可以通过扩展故障转移集群来在各个中心复制数据。 如果某个位置发生悲剧,所有数据都会保存在其他位置的故障转移服务器上。
数据库的复制
据微软称,WSFC 首次在 Windows Server 2016 中启动,旨在保护“关键任务”服务,例如 SQL 服务器数据库和 Microsoft Exchange 通信服务器。
对于数据库复制,其他供应商提供故障转移集群技术。 例如,MySQL Cluster 有一种心跳方法,可以对集群中的其他节点进行快速故障检测,通常只需不到一秒,并且不会中断客户端的服务。
可以使用地理复制功能将数据库复制到遥远的站点。
故障转移集群的好处
故障转移集群的理念是确保用户体验最小的服务中断。 然而,故障转移集群的其他额外好处将在下面讨论。
- 提高资源可用性:如果一台智能服务器发生故障,集群中的其他服务器将承担起负担。 这节省了关键的时间和信息。
- 战略资源分配:您可以按照您选择的任何方式在节点之间分配项目。 这可以最大限度地减少开销,因为并非所有计算机都需要同时执行所有项目,从而使您可以更自由地使用资源。
- 提高处理能力:更多的机器,更多的力量。
- 更高的可扩展性:随着您的用户群和报告复杂性的扩大,您的资源也会随之扩大。
- 简化管理:集群使处理重要或快速变化的系统变得更加容易。
故障转移集群的局限性
尽管故障转移群集很重要,但它也面临以下限制。
- 复杂的配置: Windows 的故障转移群集配置要求您同时处理许多网络和网卡。 因此,部署这种方法很困难,尤其是对于初学者来说。
- 工具集成: Windows 故障转移群集和 Hyper-V 必须更紧密地集成。 你必须调整它们中的每一个 成功完成故障转移集群。
- Web 界面:没有用于调整集群参数的Web 界面。 要访问集群管理器功能,您必须手动登录远程桌面。
故障转移集群解决方案:托管 DNS 提供商
通过与故障转移集群系统结合使用,托管 DNS 提供商在故障转移事件期间将流量重定向到备用服务器或数据中心,确保对服务的不间断访问,从而实现高可用性并最大限度地减少停机时间。
排名前五的托管 DNS 提供商:
- 云flare DNS
- Azure DNS
- Infoblox NIOS
- WPMU开发
- DNS管理器
* 以上是 G2 2023 年秋季网格报告中排名前五的领先托管 DNS 提供商软件。
现代化可靠性
故障转移集群已成为当前 IT 基础架构中实现高可用性和容错的可靠且重要的选项。 尽管存在硬件故障或计划维护,它仍然可以通过在众多网络节点上自动分配工作负载和资源来提供持续的操作。 这项技术为您提供了另一种方式来处理业务中最重要的方面——让每个客户的体验安全、愉快。
增强系统的弹性也没有坏处!
开始使用 DNS 安全指南来制定强大的系统策略。