时间: 2024-08-04 10:47:09 | 作者: 意面系列
MTBF(MeanTimeBetweenFailure),即平均无故障时间,是描述总系统可靠性(reliability)的指标。对于一个网络系统来说,MTBF是指整个网络的各组件(链路、节点)不间断无故障连续运行的平均时间。
MTTR(MeanTimetoRepair),即系统平均恢复时间,是描述总系统容错能力(fault-tolerantcapability)的指标。对于一个网络系统来说,MTTR是指当网络中的组件发生故障时,网络从故障状态恢复到正常状态所需的平均时间。
从公式可看出,提高MTBF或降低MTTR都能提高网络可用性。造成数据中心网络不可用的因素包括:设备软硬件故障、设备间链路故障、维护升级、用户误操作、网络拥塞等事件。针对这一些因素采取一定的措施,如提高软硬件质量、减少链路故障、避免网络拥塞丢包、避免用户误操作等,使网络尽量不出故障、提高网络 MTBF指标,也就提升了整网的可用性水平。然而,网络中的故障总是不可避免的,所以设计和部署从故障中快速回复的技术、缩小MTTR指标,同样是提升网络可用性水平的手段。
在网络发生故障时,确保网络能快速回复的容错技术均可以归入高可用技术。常用的网络高可用技术可归为以下几类:
在进行高可用数据中心网络规划时,不能只将上述技术进行简单叠加和无限制的冗余,否则,一方面会增加网络建设整体成本,另一方面还会增加管理维护的复杂度,反而给网络引入了潜在的故障隐患。因此在进行规划时,应该根据网络结构、网络类型和网络层次,分析网络业务模型,确定数据中心基础网络拓扑,明确对网络可用性最佳的关键节点和链路,合理规划和部署各种网络高可用技术。
图 1是典型的数据中心服务器区分层网络拓扑(接入、汇聚、核心)。接入层交换机为服务器提供高可用网络接入。汇聚层设备做为服务器的网关,并通过部署应用优化设备(如服务负载分担设备)以减轻服务器的处理负担,并提高服务器系统的可用性。汇聚层部署的安全设备(如防火墙)做为整个服务器区的安全边界,为服务器提供访问控制。建议在汇聚层采用与交换机一体化的应用优化或安全插板部署方式,以代替传统的独立盒式设备。采用插板方式的好处是降低能耗、减少布线复杂性,从而提升网络的整体可用性。
接入层到汇聚层有4种连接方式,如图2所示,分别为:倒U形接法(拓扑1)、U形接法(拓扑2)、矩形接法(拓扑3)和三角形接法。不一样的接法以二层链路的物理拓扑为评判依据,比如对于矩形接法(拓扑3),接入交换机之间、接入交换机与汇聚交换机之间、汇聚交换机之间均以二层链路互联,并且两台接入交换机与两台汇聚交换机构成了矩形的二层互联拓扑。
由上表能够准确的看出,三角形组网(拓扑4)提供了更高的接入可用性以及更灵活的服务器扩展能力,所以对于数据中心独立服务器的接入,建议采用三角形组网方式。
由于接入层三角形组网存在二层环路,所以要在交换机上使能多生成树协议MSTP(MultipleSpanningTreeProtocol)。汇聚层交换机(或汇聚交换上的L4/L7层设备)部署虚拟路由器冗余协议(virtualrouterredundancyprotocol,VRRP),并将 VRRP组的虚拟IP地址作为服务器网关。对于接入层这种典型的MSTP+VRRP部署方式,还应关注以下几点:
l规划多个VRRP 组,实现服务器网关的备份和负载分担。如图3,在正常转发时汇聚交换机(AGG_SW1、AGG_SW2)分别作为VLAN30和VLAN50的 VRRPMaster设备。如汇聚层部署了L4/L7设备(如防火墙),则在L4/L7设备上规划VRRP组,并将VRRP的虚拟IP作为服务器的网关。
l在汇聚交换机上指定根桥。恰当放置根桥不但可优化生成树协议所选择的路径,还可以为数据提供明确的路径,明确的路径使排错和配置网络变得更加容易。通过在汇聚层交换机上手工配置根桥的主、备策略,确保生成树在二层链路形成最佳的树型拓扑。
l汇聚交换机上联的三层接口配置“STPDisable”命令。对于不需要参与STP的端口应关闭STP特性,由此可节省设备的CPU资源和BPDU报文的发送范围,以降低网络出现故障的几率。
l接入交换机和服务器直连端口设置为“边缘端口”。网络拓扑变化时,边缘端口不会产生临时环路。因此,如果将服务器接入端口配置为边缘端口,则该端口能够迅速迁移到转发状态,降低网络的故障收敛时间。。
l接入交换机和服务器相连的端开启“BPDU保护”功能,如图3。边缘端口一般的情况不应收到生成树协议的配置消息,如有人伪造配置消息恶意攻击设备,会引起生成树重新计算,启动BPDU保护功能可防止这种攻击,避免发生网络拓扑震荡。
l 接入交换机上行端口开启“环路保护”功能,如图3。如果接入交换机上行端口发生链路拥塞或者单向链路故障时,环路保护功能会将根端口的角色变为指定端口,端口的状态为Discarding;原来被阻塞端口同样也变为指定端口,状态为Discarding状态,不转发报文,从而不会在网络中形成环路,避免引起网络拓扑震荡。
l汇聚交换机(根桥和备份根桥)与接入交换机互联的端口开启“root保护”功能,如图3。当开启“root保护功能”的端口收到优先级高的配置消息时,该端口的状态将被设为Discarding,不再转发报文。当足够长的时间内没有再次收到更优的配置消息时,端口会回到正常状态状态。这种功能可避免错误的配置或网络攻击造成汇聚交换机失去根桥地位而引起网络拓扑变化。
l交换机上开启“TC-BPDU保护”功能。为了尽最大可能避免交换机频繁收到TC报文而去频繁删除MAC和ARP表项,继而引起CPU繁忙并造成网络业务中断的情况,应在交换机上开启TC保护功能。
l在交换机上开启loopback-detection(端口环回检测)功能,防止错误的配置或连接形成端口自环。
l汇聚与接入层交换机相连的端口避免配置trunkall,只允许使用的Vlan通过,如图3中(只允许TrunkVLAN30和TrunkVLAN50),各个双归属环用Vlan隔开,防止一个环上的广播泛到另一个环上去。
网络汇聚层作为网络接入层的流量会集点与服务器的网关,需要部署防火墙做为整个服务器区的安全控制边界,还需要部署应用优化设备(服务负载分担、SSL卸载等)用以减轻服务器的负担,提高应用响应速度。建议在服务器群区域网络汇聚层采用集成在机架式交换机上的安全和应用优化多业务板卡,优点是简化机架布线、提高系统可用性、降低设备整体功耗。
图4是汇聚层交换机上部署防火墙插板(FW)和负载分担插板(LB)时的路由设计。FW板卡作为服务器网关,采用三层路由模式为访问服务器的流量提供转发,并提供攻击防御、策略管理等功能。LB板卡采用单臂旁挂部署方式。缺省网关指定在汇聚交换机上。外部用户访问虚服务的流量在LB板卡上进行负载分担与源目的地址变换后,再通过FW访问内部服务器。
图 5是汇聚层FW与LB的双机高可用部署方案。核心与汇聚交换机间运行OSPF协议。当任一节点整机或链路故障时,网络依靠OSPF进行故障收敛。两个LB 之间运行VRRP,汇聚交换机将去往服务器IP地址的下一跳指向LB的VRRP虚IP地址,当LB主路径板卡故障时,通过VRRP可以切换到备份卡上继续流量转发。两个FW之间也运行VRRP,FW主路径板卡故障时,通过VRRP可以切换到备份卡上恢复流量。汇聚交换机之间需要 TrunkV100/V400/V500
汇聚层到核心层间采用OSPF等动态路由协议进行路由层面高可用保障。常见连接方式有两种,如图6。拓扑1采用了三角形连接方式,从汇聚层到核心层具有全冗余链路和转发路径;拓扑2采用了四边形连接方式,从汇聚层到核心层没有冗余链路,当主链路出现故障时,一定要通过路由协议计算获得从汇聚到核心的冗余路径。所以,三角形拓扑的故障收敛时间较小,但三角形拓扑要占用更多的设备端口,建网成本较高。
对于接入层而言传统架构为保证网络高可用性一般会用MSTP+VRRP,这种组网需要在接入交换机与汇聚交换机间运行MSTP协议,管理和维护较复杂。但当接入交换机和汇聚交换机都采用IRF架构之后,可将每两台交换机(也可以是多台)配置成一个IRF堆叠组,两台汇聚交换机也配置成一个堆叠组,接入交换机与汇聚交换机之间通过捆绑链路连接,如图7。从逻辑上看,一个堆叠组就是一台设备,因此接入交换机和汇聚交换机间不存在二层环路,能够尽可能的防止MSTP的配置管理,简化网络设计。
图8是采用IRF设计时的网络高可用性切换方式。情况A是正常转发路径,服务器流量经过网络接入层和汇聚层的IRF堆叠组。情况B,当接入层IRF堆叠组的一台交换机发生故障,服务器网卡进行切换,通过IRF另一台交换机就可以恢复网络通信,而汇聚层设备无需任何变化,数据流仍从同一聚合链路进入网络。情况C,汇聚层设备出现单台故障,服务器不感知,只由接入交换机将流量转发到聚合链路,汇聚层存活的交换机感知的仍是从现有聚合链路接收数据流。情况D,发生捆绑链路故障,交换机会将数据流转发到捆绑组存活链路上,对于IRF交换机组来说,数据流转的逻辑接口并未改变。
对数据中心而言,高可用性永远是必不可少的重要需求。数据中心的核心是业务数据,网络作为承载层需要保证运行于其上的数据的安全性与可用性,尤其是在网络节点链路出现故障情况下要确保业务可用与数据零丢失。从传统的环路冗余到现在的IRF堆叠,数据中心网络高可用技术将会一直在优化进步,更好的满足快速地发展的数据中心业务应用需求。
虚拟化是云数据中心的关键技术,然而,传统的虚拟局域网(VLAN)技术已不能够满足现在云数据中心规模化运营发展的需求,VXLAN(VirtualeXtensibleLocalAreaNetwork)虚拟扩展局域网是一种进行大二层虚拟网络扩展的隧道封装技术,可以很好地解决以上问题,目前这个技术已成为各种规模化运营的云数据中心不可忽视的关键应用技术。
不少的数据中心评价机构尽量保证数据的真实性和权威性,一定要将数据中心分个三六九等,这其中就有两项非常重要的参数,就是一个数据中心的高可用性和数据中心的容灾能力。往往这两项会在整个数据中心评价中占据相当大的权重,很多数据中心在建设时考虑最多的也是这两个方面。下面就展开来谈谈高可用性及容灾。
云计算的火热,推动了数据中心更大发展。在规模的日益庞大,功率密度持续提高的当下,合理、良好的规划和设计对打造优质的数据中心越来越关键。如何有效地利用当地的环境与资源条件、合理规划与设计空调系统、并采用最适合的设计方案,既能保障数据中心安全运行,同时还取得最大化的节能效果,慢慢的变成了业内普遍关心的热点线