網絡的可靠性是設計出來的
2023-07-04 14:32:43 2
根據國家標準GB-6583的規定,產品的可靠性是指:設備在規定的條件下、在規定的時間內完成規定的功能的能力。對於網絡系統的可靠性,除了耐久性外,還有容錯性和可維護性方面的內容。
1、耐久性。是指設備運行的無故障性或壽命,專業名稱叫MTBF(Mean Time Between Failure),即平均無故障時間,它是描述整個系統可靠性的重要指標。對於一個網絡系統來說,MTBF是指整個網絡的各組件(鏈路、節點)不間斷無故障連續運行的平均時間。
2、容錯性。專業名稱叫MTTR(Mean Time to Repair),即系統平均恢復時間,是描述整個系統容錯能力的指標。對於一個網絡系統來說,MTTR是指當網絡中的組件出現故障時,網絡從故障狀態恢復到正常狀態所需的平均時間。
3、可維護性。在系統發生故障後,能夠很快地定位問題並通過維護排除故障,這屬於事後維護;根據系統告警提前發現問題(如CPU使用率過高,埠流量異常等),通過更換設備或調整網絡結構來規避可能出現的故障,這屬於預防維護。可維護性需要管理人員來實施,體現了管理的水平,也反映了系統可靠性的高低。
表示系統可靠性的公式為:
MTBF / ( MTBF + MTTR ) * 100%。
從公式或以看出,提高MTBF或降低MTTR都可以提高網絡可靠性。造成網絡不可用的因素包括:設備軟硬體故障、設備間鏈路故障、用戶誤操作、網絡擁塞等。針對這些因素採取措施,使網絡儘量不出故障,提高網絡MTBF指標,從而提升整網的可靠性水平。
然而,網絡中的故障總是不可避免的,所以設計和部署從故障中快速恢復的技術、縮小MTTR指標,同樣是提升網絡可靠性水平的手段。
在網絡架構的設計中,充分保證整網運行的可靠性是基本原則之一。網絡系統可靠性設計的核心思想則是,通過合理的組網結構設計和可靠性特性應用,保證網絡系統具備有效備份、自動檢測和快速恢復機制,同時關注不同類型網絡的適應成本。
構建可靠的網絡,需要從耐久性、容錯性以及可維護性三個方面進行網絡規劃設計。而網絡的規劃設計是個系統工程,不同的設計方案的可靠性性效果不盡相同,這就需要以科學的方法進行設計,構建符合需要的可靠性網絡。
一、網絡解決方案可靠性的設計原則
不同的網絡,其可靠性的設計目標是不同的。網絡解決方案的可靠性需要根據實際需求進行設計。高可靠性的網絡不但涉及到網絡架構、設備選型、協議選擇、業務規劃等技術層面的問題,還受用戶現有網絡狀況、網絡投資預算、用戶管理水平等影響,因此在規劃可靠性網絡時需要因地制宜,綜合考慮各方面的影響因素。
網絡結構通常分核心層、匯聚層和接入層。網絡層次越高其可靠性要求也越高。在網絡的方案設計中,採用層次化的網絡設計結構,不同層次解決不同級別的可靠性要求。為保證網絡可靠性,可靠性技術的實施並不是簡單疊加和無限制的冗餘。否則,一方面會增加網絡建設整體成本,另一方面還會增加管理維護的複雜度,給網絡引入潛在的故障隱患。因此在進行規劃時,應該根據網絡結構、網絡類型和網絡層次,分析網絡業務模型,確定基礎網絡拓撲,明確對網絡可靠性非常好的的關鍵節點和鏈路,合理規劃和部署各種網絡高可用技術。
在網絡可靠性規劃實施時,應在保證網絡各層次可靠性要求的基礎上,儘量降低複雜度,適度地控制成本,才能設計出最適合的方案。不能為追求單純可靠性而忽視系統的整體成本和性能,構建可靠性網絡是一個平衡各方面因素的過程。所以對於網絡可靠性,沒有最好的方案,只有最合適的方案。
二、解決方案可靠性的設計方法實例
1、網絡接入層可靠性方案
可靠的接入層應提供以下主要特性:
? 使用冗餘引擎和冗餘電源獲得系統級冗餘,為關鍵用戶群提供高可靠性;
? 與具備冗餘系統的匯聚層進行雙歸屬連接,獲得預設網關冗餘,支持在匯聚層的主備交換機間快速實現故障切換;
? 通過鏈路匯聚提高帶寬利用率,同時降低複雜性;
? 通過配置802.1X,動態ARP檢查及IP源地址保護等功能增加安全性,有效防止非法訪問。
接入層到匯聚層有四種連接方式,如表1所示。可以看出,三角形組網(拓撲4)提供了更高的接入可靠性以及更靈活的擴展能力,所以建議採用三角形組網方式。由於接入層三角形組網存在二層環路,所以需要在交換機上使能多生成樹協議MSTP。匯聚層交換機部署虛擬路由器冗餘協議VRRP,將VRRP組的虛擬IP位址作為伺服器網關。
圖1. 高可靠性接入典型組網
接入層的四種拓撲的比較:
拓撲 優點 缺點
1
倒U形 不啟用STP,網絡管理簡單。
VLAN可以跨匯聚層交換機,二層的擴展靈活。 匯聚交換機故障時,造成其同側接入交換機上的伺服器不可達,無法實現高可用接入
2
U形 不啟用STP,網絡管理簡單。
接入交換機與匯聚交換機之間有冗餘鏈路。 VLAN不能跨匯聚交換機,部署不靈活。接入交換機間鏈路故障時,VRRP心跳報文無法傳遞,網絡處於不穩定狀態。
3
矩形 接入交換機與匯聚交換機之間有冗餘鏈路。
VLAN可以跨匯聚層交換機 當接入交換機上行鏈路故障時,所有流量將從另一側的交換機上行,網絡收斂比變小,網絡易擁塞,降低了網絡可靠性。
4
三角形 接入交換機與匯聚交換機之間有冗餘鏈路、冗餘路徑。
VLAN 可以跨匯聚層交換機,部署靈活 生成樹計算比矩形拓撲複雜。
表1. 四種拓撲連接方式的對比
2、網絡匯聚層可靠性方案
匯聚層應使用與核心層相同結構的冗餘節點備份連接,以實現最快速的路由收斂並避免黑洞產生。匯聚層做三層接入網關時,還需要通過VRRP等協議實現網關的冗餘備份和流量的負載分擔。匯聚層邊界發生鏈路或節點故障時,收斂速度取決於預設網關冗餘與故障切換,通過合理地配置協議定時器,可達到秒級的收斂速度。
匯聚層到核心層間採用OSPF等動態路由協議進行路由層面高可用保障。常見連接方式有兩種,如圖2所示。左圖組網方式從匯聚層到核心層具有全冗餘鏈路和轉發路徑;右圖組網方式從匯聚層到核心層沒有冗餘鏈路,當主鏈路發生故障時,需要通過路由協議計算獲得從匯聚到核心的冗餘路徑。所以,三角形拓撲的故障收斂時間較小,但要佔用更多的設備埠,建網成本略高。
圖2. 匯聚層與核心層的拓撲
3、核心層可靠性方案
核心層設備作為網絡的骨幹,需要能提供快速的數據交換和極高的永續性。從備份和負載分擔的角度可選用雙核心或多核心;從單臺設備考慮,選用交換性能和可靠性高的設備,支持雙主控、電源冗餘、風扇冗餘、分布式轉發等特性。並降低核心設備配置的複雜度,減少出現錯誤的機率。
儘量在核心使用冗餘的點到點三層互聯(如圖2左圖),因為這種設計可產生最快速、最確定的收斂結果。將核心設計為只使用硬體加速業務的三層交換環境要優於二層的設計,因為在鏈路或節點故障時能提供更快的收斂速度、通過減少路由鄰接關係和網絡拓撲提高可擴展性、通過等價多路徑提高帶寬利用率。
4、IRF虛擬化技術提高可靠性
圖3. 傳統架構網絡拓撲與IRF架構網絡拓撲對比
傳統架構為保證網絡高可靠性通常採用MSTP+VRRP,這種組網需要在接入交換機與匯聚交換機間運行MSTP協議,管理和維護較複雜。但當接入交換機和匯聚交換機都採用H3C IRF智能彈性架構技術之後,可將每兩臺交換機(也可以是多臺)配置成一個IRF堆疊組,兩臺匯聚交換機也配置成一個堆疊組,接入交換機與匯聚交換機之間通過捆綁鏈路連接,如圖3所示。從邏輯上看,一個堆疊組就是一臺設備,因此接入交換機和匯聚交換機間不存在二層環路,可以避免MSTP的配置管理,簡化網絡設計。
圖4是採用IRF設計時的網絡高可靠性切換方式。情況A是正常轉發路徑,伺服器流量經過網絡接入層和匯聚層的IRF堆疊組。情況B,當接入層IRF堆疊組的一臺交換機出現故障,伺服器網卡進行切換,通過IRF另一臺交換機即可恢復網絡通信,而匯聚層設備無需任何變化,數據流仍從同一聚合鏈路進入網絡。情況C,匯聚層設備出現單臺故障,伺服器不感知,只由接入交換機將流量轉發到聚合鏈路,匯聚層存活的交換機感知的仍是從現有聚合鏈路接收數據流。情況D,發生捆綁鏈路故障,交換機會將數據流轉發到捆綁組存活鏈路上,對於IRF交換機組來說,數據流轉的邏輯接口並未改變。
IRF的實施可以提供更高的網絡可靠性,進一步簡化網絡管理。
5、綜合可靠性組網模型
網絡按照分層、模塊化的思路進行設計和規劃,根據業務等規劃因素進行模塊化區域劃分,每個區域有自己的匯聚核心與網絡核心互連,如圖5所示。
網絡匯聚層以上都為三層設備,配置OSPF協議,網絡故障收斂速度快,易於管理和維護。接入層千兆雙歸屬到匯聚層設備,提供鏈路冗餘備份。匯聚採用雙機備份,雙歸屬到核心層。核心層設備通過高速鏈路連接,完成數據交換和雙機熱備份。對於設備較多的網絡,核心層可考慮使用多臺設備搭建RPR環或RRPP環替代雙機熱備份。核心設備要求支持雙主控、電源/風扇冗餘、跨板聚合以提高可靠性。
可靠性網絡的主要故障恢復時間指標如表2所示:
網絡故障 收斂性能
接入-匯聚/匯聚-核心鏈路故障 500毫秒
匯聚層設備故障 1秒
核心層設備故障 500毫秒
匯聚/核心層設備雙主控切換 200毫秒
鏈路聚合故障 1秒
表2.可靠性網絡主要性能指標
三、總結
高可靠性永遠是網絡必不可少的重要需求。網絡系統的可靠性就像自然界的生態平衡,維繫著系統的正常運轉,一旦平衡被打破,需要具備自我恢復的能力。一個可靠的網絡系統,能夠保證長期的正常運轉,在極低的概率情況下才出現故障。高可靠性的設備和可靠性技術(如冗餘備份和IRF)是保證以上可靠性的基礎。
網絡解決方案是一個系統,其可靠性的程度更大程度上取決於設計方案。好的設計方案在保證可靠性的前提下,能簡化系統的複雜度,提高系統可維護性,並控制成本在合理的範圍內。只有真正理解用戶需求,並在廣泛實踐的基礎上才能形成滿足用戶需要的可靠性解決方案,在這個過程中方案設計是核心,網絡解決方案的可靠性是設計出來的。