網絡產品硬體的可靠性保證
2023-07-04 14:39:17
實現產品與網絡的高可靠是一個系統工程,本文以H3C產品為例,就通信產品硬體的可靠性保證作簡要探討。
鋼鐵是怎樣煉成的?
實現高可用網絡的方法,除了像冗餘備份、提高故障診斷能力、增加備件這些減少設備宕機時恢復時間的方法之外,還包括一個重要的指標——設備的可靠性。如何保證硬體設備的可靠性?它包括哪些方面?
可靠性管理:可靠性保證和增長的基礎
之所以把可靠性管理放在第一位,優先於可靠性設計、分析和試驗,是因為我們認為後者都是具體的、細節的技術或方法,是可以短期內修正或完善的;而可靠性管理則代表了一個公司可靠性領域在流程和制度上的成熟度,需要時間、實踐、經驗和數據的積累和沉澱,可以說是員工心智和公司文化的體現。
H3C於2005年正式將可靠性納入公司的流程管理,作為產品開發過程中的重要一環。對於研發的每款產品,H3C都會制定相應的可靠性規格和過程實施計劃。可靠性規格是產品概念階段在可靠性指標上的承諾,根據各方面的需求決定出要做什麼樣的產品。可靠性過程計劃則明確定義什麼階段、由誰完成哪些可靠性工作,達到什麼目標,過程如何規範,交付哪些內容,在執行上保證了規格承諾的兌現。
舉例來說,器件管理和優選便是可靠性管理體系中的重要組成部分。做過產品開發的人都知道,不同廠家的同型號器件,往往很難做到所有參數完全一致。當器件參數不一致時,產品在設計初期就需要考慮通過容差設計來兼容這些器件,這樣就對設計和製造提出了更高的要求,一定程度上提高了設計製造的難度和成本。隨著供應商和器件型號的增加,管理費用迅速上升,彼此溝通變成了一個費時費力而且低效的工作。另一方面,設計和製造也不斷出現由「兼容設計」引起的問題,允許免檢直接入庫的器件變少。對於這種問題,在H3C,有專門的部門負責器件優選和認證管理工作,他們跟蹤業界器件技術發展的動態,對製造、客戶出現的器件問題進行跟蹤和數據搜集,提供各類優選器件清單,使器件選型工作簡單有效。當有器件需要替代時,必需經過足夠環節的審核、測試和小批量驗證才能被規模使用。
可靠性增長的一個重要方法是應用FRACAS系統(Failure Report Analysis and Corrective Action System),其原理是利用「故障反饋、閉環控制、預防再發生」,通過一系列規範化的工作程序,及時報告產品故障,分析故障根因並糾正,通過臨時規避措施減小故障的影響,通過預防再發生的解決措施實現產品可靠性增長。在H3C,從研發、試產、生產到客戶現場,各環節不同程度都在實施故障報告和閉環。以HASA(Highly Accelerated Stress Audit,高加速應力稽核)流程為代表,該流程融入了FRACAS和8D的思路,對每一臺HASA過程出現問題的設備,都建立流程跟蹤,從條碼記錄、故障現象、故障風險分析、根本原因總結到解決措施、閉環實施,把各環節有機整合起來,實現發貨前檢驗的高效率和問題閉環的有效性。將每個HASA失效都看作改進過程的機會,從而使解決問題的投入達到利益最大化。
根據流程,所有和可靠性相關的關鍵數據都集成到了QA系統的可靠性模塊。在這裡,可以查到某款產品在特定發貨時間的市場失效情況,可以跟蹤市場實際MTBF、累計失效率、製造批次相關的失效率等等。通過數據分析和同類產品比對,去發現設計、製造、管理各環節可以提高的機會,實現進一步的可靠性增長。
良好的可靠性管理通過建立一套嚴格的紀律,指導設計人員什麼時候要做什麼事情;可以讓今天的教訓成為明天的預防,在明天就「一次性把事情做對」;可以讓我們「站在巨人的肩膀上」,做任何事情都不是從零開始。而所有的目的,只是為了實現可靠性目標的承諾,保證提供給客戶的產品,在承諾的時間內是高可靠的、是滿足客戶要求的。
可靠性設計:關注細節,重在執行
談到電子產品可靠性設計,我們幾乎馬上會想到熱設計、元器件降額、容差容錯設計、可靠性預計等等。可靠性設計是否成功,有兩點必不可少,其一是執行,其二是細節。
首先是執行。以降額設計為例,不少公司都有降額設計規範,但這個規範是否被嚴格執行了,超出降額的器件有沒有被專業評估,降額要求是否根據製造/市場元器件的表現調整,不同產品是否需要分別對待實現全壽命成本最優,都是可靠性設計的關鍵。再如熱設計,在H3C,熱設計由可靠性工程師保證。每款產品,在開發初期,都會對散熱進行評估和仿真,提前釋放散熱風險。在整個評估過程中,可靠性工程師和結構工程師、產品開發人員、互連設計工程師的溝通非常緊密,結構、布局的變化會知會可靠性工程師進行散熱風險評估。風險沒有釋放,就不能通過下一個技術評審點。
其次是細節。可靠性設計是一個需要注重細節的工作,所謂「千裡之堤,潰於蟻穴」。1980年,阿麗亞娜火箭第二次試飛時,一名工作人員不慎碰落一個部件的商標,堵塞了發動機燃燒室的噴嘴,造成發射失敗。1985年,美國發射「三叉戟」飛彈,由於發動機燃燒室中剝落了一塊黃豆大的絕緣層,結果高溫火焰燒穿了那裡的金屬壁,燃氣向外噴射,發動機爆炸。「Paying attention to details」因此被直接寫入到美軍標338中的,這也是經驗和思考的總結。
以H3C為例,熱設計中的熱仿真過程不但仿真常態情況,還會對風扇停轉等異常狀態進行仿真;在降額設計上,對各類器件電應力進行遍歷審查,對不同風扇轉速下熱應力進行遍歷測試,保證在規定環境下每個器件承受的應力滿足降額要求;對易損耗的器件進行壽命評估,保證在規定時間內設備符合用戶的要求;對關鍵電路進行容差設計和仿真,保證器件參數隨環境應力、壽命漂移時,電路依然可以可靠工作。對電路進行簡潔度設計,通過SI/PI仿真減少不必要的器件,簡化設計從而降低單板失效率。
可靠性分析:防患未然,心知肚明
可靠性分析主要包括三部分:可靠性預計、FMEA(故障模式影響分析)和FTA(故障樹分析)。可靠性預計通過計算MTBF、返修率等指標,評估維修成本、備件成本和整網可用度,可以提前預計產品在現場運行的可靠性情況。FTA構造繁雜,對人員經驗和技能要求高,通常只對重要故障進行分析。對於複雜產品,FMEA是一個防患未然的有效方法。舉個簡單的例子,當我們遇到十字路口紅綠燈失效的情況時,哪種失效現象最不希望出現?顯然,當兩條路上同時出現綠燈時交通事故隱患就被埋下了。那麼在開展交通信號燈控制系統的FMEA分析時,就要關注哪些器件失效會出現綠燈同時點亮的情況,是否有解決方法。
在H3C,複雜系統會開展FMEA分析工作,通過對系統中可能出現的故障模式和影響做深入分析,將故障檢測和容錯設計納入產品需求,消除單點故障。對於冗餘備份系統,保證失效發生時設備可以快速倒換,業務運行不受影響,從而提高產品可靠性。在可靠性預計方面,利用強大的數據支持,結合歷史數據分析,對可靠性預計進行針對性修正,提高了預計的準確性。
可靠性試驗:真金不怕火煉
H3C研發出來的每一款產品,都會經受可靠性試驗的洗禮,其中最嚴酷的當屬HALT試驗(Highly Accelerated Life Test,高加速壽命試驗)。
90年代HALT試驗在國外獲得推廣,國內企業由於各種限制起步相對較晚。與傳統的施加模擬客戶環境的應力來發現故障的環境試驗不同,高加速應力是一種主動的試驗。使用應力步進的方法,使設備不斷接近極限應力,直到故障暴露。通過「暴露缺陷—不斷改進—再試驗—再改進」的方式,持續發現並解決設計、來料、工藝等相關問題,從而獲得產品的快速穩定。這有點像運動員的訓練,如果要參加100米短跑比賽,那麼運動員平常訓練時絕不會只是重複訓練100米衝刺,力量和耐力的訓練必不可少。同樣道理對於產品來說,雖然標稱工作環境是0~40/45℃,HALT試驗過程中其實都會經受100℃高溫和-40℃低溫的極限考驗。
圖1 5臺HALT/HASA試驗箱,對產品進行極限測試
關於HALT試驗的三個疑問
1. HALT試驗做到-40℃和100℃有沒有必要,室內應用的產品,怎麼可能有這樣的環境?
經驗告訴我們,非常必要且獲益匪淺!按照H3C工程師的說法,不作HALT試驗「心裡沒底」。
2. 廠家宣稱的0~70℃的器件能在-40~100℃環境工作嗎?
實踐表明,在可靠的電路設計下,器件完全可以承受比規格更高的應力(極少數器件例外)。
3. 為什麼可以用環境應力暴露未來5年甚至10年可能出現的可靠性問題?
研究一下元器件資料,看看容差設計的原理和品質管控方面的書籍,就會發現一個共同點:器件參數漂移。當一個器件在極限環境應力下參數漂移範圍比工作5年參數漂移範圍更寬時,只要該器件在電路環境中能承受極限應力,你就基本可以放心未來5年參數漂移引發失效的模式不會在電路中發生。其他原因如振動累計損傷、磨損引起的失效加速分析等,這裡不再展開。
除了HALT試驗,H3C還採用了一個時尚前衛的可靠性保證手段,那就是HASA篩選。
研發出來的產品,到量產後,由於器件批次間的參數離散、工藝控制的原因,可靠性不可避免會降低。HASA利用溫度、振動、電應力、數據流量等多應力同時施加的方式,有效篩選出故障設備,從而實現量產產品在質量和可靠性上的快速穩定。通常的HASA篩選應力遠超出設備工作應力,比如溫變率,典型應用環境溫變率不會超過0.5℃/分鐘,H3C篩選應力是40℃/分鐘。
其他常規試驗如溫溼度類試驗、機械類試驗、EMC的浪湧/靜電/抗幹擾試驗、故障插入測試等,都是H3C產品的必檢項,不通過這些試驗,產品是無法到達客戶手中的。
結語
行文至此,相信你已對通信設備以及H3C產品可靠性保證體系有了簡單了解。鋼鐵鑄就源於千錘百鍊,提高可靠性,除了規格和規範的要求外,正成為H3C從研發到生產,從管理層到普通員工,日常工作的一項自發要求。正是不同領域團隊對可靠性工作的高度重視和大力投入,才鑄就了H3C產品的高可靠性。