高可用性2025年6月16日 | 阅读 11 分钟 实现企业可持续性是全球企业的一项重要任务。停机可能会导致严重的经济影响,在某些情况下,甚至会导致无法修复的系统故障。 高可用性架构是一种消除服务中断和流程故障的策略。由于机器和公司的服务器必须随时可用,因此每个组织都高度依赖互联网。 无论您是想托管自己的IT技术,还是选择服务器场上的统一平台,高可用性都应该是建立IT基础设施时首先考虑的方面。 什么是高可用性为了在特定时间内提供不间断的服务,高可用性架构需要多个模块同时运行。这通常需要对用户查询的响应时间。特别是,软件解决方案不仅需要是数字化的,还需要是响应迅速的。 为了确保关键软件和系统的连续供应,实施允许这样做的云计算基础设施非常重要。当不同组件发生损坏或设备承受巨大压力时,它仍然保持在线和自适应。 高可用性网络能够从意外事件中尽快恢复。这些系统通过将功能转移到替换模块来减少或消除停机时间。为了确保没有故障点,这通常包括例行维护、检查和初步的深入检查。 高可用性情况包括具有持续分析网络效率的设备软件的多个服务器结构。避免机器的计划外停机是最高优先级。当一部分机器发生故障时,绝不能触发在制造时间内完全停止运行。 对于大型组织来说,保持功能正常且不中断至关重要。在这些环境中,哪怕是几分钟的中断也可能导致信誉、客户和数十亿美元的损失。 现代计算机普遍可读,只要可访问性程度不影响业务活动,就可以容忍错误。 高度可用的基础设施具有以下特点:
![]() 高可用性的必要性停机时间是指您的设备(或连接)离线或无法访问的时间。闲置时间可能对企业造成严重损害,因为当设备过载时,所有操作都会暂时暂停。亚马逊在2013年8月停机了15分钟(包括网络和移动操作),最终每分钟损失超过66,000美元。即使对于像亚马逊这样规模的公司来说,这些数字也是巨大的。 休息时间有两种:计划内和计划外。计划内的吞吐量是服务不可避免的后果。这包括应用补丁、软件更新,甚至数据结构的修改。毕竟,计划外停机是由某些意外事件引起的,例如系统故障。它可能由于模块的电源短缺或故障而发生。计划内的故障在成就估算中基本被禁止。 引入高可用性结构的目的是确保您的设备或软件设计成几乎没有休息时间,以适应多种压力和多种漏洞。有许多因素会影响您实现这一点,我们稍后将讨论。 高可用性(HA)架构在当今世界,服务器输出因交通量急剧增加而下降,可能导致突然的电力故障。情况甚至可能更糟;无论程序是托管在云端还是本地设备上,服务器都可能不堪重负。这种情况不可避免。然而,与其假装它不会发生,不如做好充分准备,以防止您的设备崩溃。 解决危机的方法是使用高可用性(HA)的设置或基础设施。高可用性架构是一种确定设备元素、单元或实用程序的方法,以确保最大化的生产效率,无论是在高负载时期。虽然没有预设的高可用性系统实现指南,但通常有几种标准方法应该遵循,以最少的努力获得最大的效益。 ![]() 如何衡量高可用性的响应时间百分比?可用性定义为在特定持续时间内(通常是一年)特定设备完全正常运行的时间。 它以百分比表示。请注意,响应时间不一定像可用性那样表示。设备可能已启动并正在运行,但对消费者不可用。网络或负载平衡问题可能是原因。 通常,响应时间通过“五个九”的可用性评分来表示。如果您计划选择统一平台,则会在服务水平协议(SLA)中明确规定。一个“一个九”的评分意味着保证的可用性是90%。许多组织和公司目前需要提供至少“三个九”,即99.9%的可用性。 组织有不同的可用性要求。“五个九”,即“99.999%的吞吐量,将是那些需要全年全天候运行的公司的目标。”它看起来像是0.1%的差异不大。事实上,如果将其转换为分钟和小时,这些测量值都很小。 考虑到每年的累积响应时间,根据九的列表
如上表所示,99%和99.9%之间的差异很大。请记住,每年都以天为单位进行估算,而不是以小时或分钟为单位。可用性等级越高,产品成本也会越高。 如何衡量响应时间?对于任何可能影响系统一部分或整个结构有效实现的因素,量化停机时间都很重要。设备的计划内服务应纳入可用性计算。 如您所见,上表未显示100%的可用性点。 简单来说,任何系统都不是完全免于故障的。相反,切换到备用部件可能需要一些时间,可能是毫秒、分钟或小时。 高可用性的实现寻求整合高可用性策略的公司需要考虑实现系统高可用性所需的多个要素和标准。安全机制和设施要求需要全天候管理,以实现业务目标和服务能力。为实现高可用性而需要满足的要求包括行业标准。 我们在这里有四个步骤来实现99.999%的效率和正常运行时间。 1. 减少高可用性与单点故障的冗余通过确保所有层级的复制,高可用性结构的至关重要方面是消除漏洞。无论发生全球性灾难、设备或电力中断,IT基础设施都应有备份元件来修复损坏的设备。 存在各种极端的部件复制。其中最常见的是
让我们逐一了解上述模型。 N+1 模型 它涉及维持机器运行所需的硬件量(称为“N”)。对于每个模块,在发生故障时都有一个独立的备用元件。使用外部电源为数据库服务器将是一个实例,但这可能是其他IT元件。通常,此模型是主动/被动的。如果发生故障,备用模块将处于待命状态,准备接管。N+1的复制也可以是主动的。请注意,N+1模板不是完全冗余的设计。 N+2 模型 它等同于N+1模型。区别在于设备可以容忍两个相似元素的故障。这对于大多数公司能够顺利运行的更高可用性来说已经足够了。 2N 模型 此模型需要系统运行所需的所有单个组件的两倍数量。此策略的好处是您不必考虑是单个组件还是整个系统发生故障。任务可以直接转移到备用组件。 2N+1 模型 2N+1模型通过一些其他增强安全性的变量,提供了与2N相同的可用性和复制级别。 通过区域复制,实现了绝对冗余。 这是针对自然灾害和其他事件的唯一完全故障策略。在这种情况下,服务器分布在多个区域。 将网站放置在不同的城镇、国家甚至大陆是合适的。从这个意义上说,它们是完全独立的。如果一个地方发生大规模故障,另一个地方将能够接管并维持公司运营。这种复制形式被证明相当昂贵。积极的一面是选择一个覆盖全球的网络基础设施供应商提供的统一平台。 除了电力故障,导致业务放缓的最重要因素之一是网络问题。 为此,网络设计应使其能够全天候365天运行。必须有备用的网络路由才能实现100%的网络服务吞吐量。每个网络都应有可互换的企业级交换机和适配器。 2. 修复和数据备份任何企业面临的主要挑战之一是数据保护。高可用性系统应有健全的数据安全策略和恢复程序。 拥有足够的备件是基本要求。在系统故障、欺诈或存储完全损坏的情况下有效恢复是另一件重要的事情。如果您公司需要较低的RTO和RPO,并且不能容忍数据丢失,那么数据复制是最好的选择。根据公司范围、需求和支出,有几种应急计划可供选择。 IT高可用性与完全备份和恢复是相辅相成的。两者都应仔细准备。为确保数据冗余,在复制基础设施上进行完全备份至关重要,切不可忽视。 3. 故障检测与自动故障切换在高可用性、复制的IT架构中,设备需要在发生故障时立即将请求转移到备用发生器。这称为故障切换。早期诊断漏洞对于提高故障切换率和确保最佳服务效率至关重要。 对于高可用性,我们建议的解决方案和服务之一是Carbonite Availability。无论是数字的还是实际的,它都足以满足任何架构。您可以切换到Cloud Replica,以实现高效、可扩展的基于云的网络停机和故障回切。故障切换方法是指可能崩溃的整个系统或其某些组件。如果一个部分发生故障或数据库服务器停止响应,故障切换必须是透明的,并且实时发生。 该机制看起来如下
故障周期的长度取决于设备的复杂程度。在某些情况下需要几分钟。然而,也可能需要几个小时。 要实现最佳性能,高可用性的准备应取决于所有这些因素。实现99.999%可用性和缩短故障切换时间是总体目标,必须与每个设备组件保持一致。 4. 负载均衡负载均衡器可以是设备系统或软件系统。它旨在将多个服务器和模块与软件或网络服务分散开。目的是提高整体运营效率和可靠性。通过有效处理负载并持续监控后端服务器的性能,它显著提高了服务器和通信资源的利用率。 负载均衡器如何选择服务器?您可以使用几种不同的策略来在服务器池中分散负载。选择适合您工作负载的策略将取决于不同的考虑因素。其中一些包括支持的软件类型、网络状态以及后端服务器的状态。根据当前收到的请求数量,负载均衡器会确定使用哪种算法。 下面讨论了许多最广泛使用的负载均衡算法: 轮询使用轮询算法的负载均衡器会将请求导向队列中的第一台服务器。它将切换到优先级列表中的最后一个,然后重新开始。执行此方法很简单,而且得到了广泛应用。然而,它没有考虑到服务器是否具有不同的硬件参数,以及它们是否更容易过载。 最少连接在这种情况下,负载均衡器将选择连接数最少的服务器。如果用户请求进来,负载均衡器不会像轮询那样,将连接授予队列中的另一台服务器。相反,它会寻找当前连接数最少的那一台。在某些会话持续时间较长的场景中,最少连接方法特别适合避免使Web服务器过载。 源IP哈希此方法将根据请求的源IP地址来决定选择哪台服务器。通过使用源和目标IP地址,负载均衡器会生成一个特殊的加密哈希密钥。此密钥通常允许用户的请求被定向到特定的服务器。 最终,负载均衡器在维护高度开放的基础设施方面发挥着重要作用。即便如此,仅仅拥有负载均衡器并不意味着系统的可用性很高。如果负载均衡器设计只是路由拥堵以减轻单个计算机的负担,它并不能使设备高度可用。 通过对负载均衡器本身实施复制,您可以消除它作为单点故障。 高可用性的优势以下是高可用性系统的一些优势。它们在下面列出。
下一话题2020年最佳C清理器替代品 |
我们请求您订阅我们的新闻通讯以获取最新更新。