金山雲魏代政解讀:移動視頻雲初建平臺是怎樣煉成的
2024-09-19 02:44:11
2016年直播風頭正勁,雲公司也迎來春風。縱觀視頻雲市場,金山視頻雲異軍突起,在移動直播領域拔得頭籌,一舉成為移動視頻雲初建平臺。僅僅半年,排名前200的直播App中有一半已經是金山視頻雲的客戶。
那麼,是什麼使金山視頻雲在短短半年內成為行業的絕對領導者呢?這個業內公認的「移動視頻雲初建平臺」在運維上又有哪些絕招呢? 這些疑問在GOPS2016全球運維大會上得到了解答。
12月16日,在高效運維主辦的GOPS2016全球運維大會-北京站上,金山雲視頻雲事業部運維總監魏代政發表了題為《視頻直播運維難點與解決方案》的主題演講,對金山視頻雲運維經驗進行了乾貨分享。
金山雲視頻雲事業部運維總監魏代政在發表演講
他指出,優質的雲架構是平臺的根基和靈魂,金山視頻雲具備一站式,超融合的解決方案,服務能力方面追求高吞吐和高可靠。監控全面精準、故障快速隔離、科學的容量調度與建設規劃,是保障超大規模視頻CDN系統持續穩定運行的三大首要任務。
一站式、超融合、高吞吐、高可靠,打造完美視頻雲解決方案
從解決方案角度,金山視頻雲具備一站式,超融合的特點,即:從播放SDK到CDN系統,從CDN系統到直播源站,從直播源站到點播源站,在線/離線轉碼,連麥服務,美顏&動態貼紙等,一應俱全,可以為客戶一站式解決所有問題。
與此同時,兼容和友商進行源流互推共享,方便用戶整合各家雲服務優勢達到自身服務質量的極致提升。
從服務能力方面,金山視頻雲一直秉承高吞吐,高可靠的追求。
而在基礎設施建設方面,金山視頻雲的CDN具備6大三線上層、200+CDN節點、6TB帶寬儲備,並計劃在2017年實現500+節點、10TB帶寬儲備。在直播源站方面則具備10萬路流、5萬路實時轉碼,而且整個架構具備快速水平擴展能力。
從上述數據不難看出,金山視頻雲的海量流量承載能力,能力的背後是大量的節點和設備,和眾多條可用數據鏈路的冗餘。那麼,面對如此多的機房、設備以及眾多的網絡數據流鏈路,在如此之快的成長和發展速度下,金山視頻雲是如何保障平臺穩定性,如何做到高可靠呢?
魏代政指出,監控全面精準、故障快速隔離、科學的容量調度與建設規劃是保障金山視頻雲服務持續高速發展的三個首要任務。
運維主動出擊,將隱患扼殺於萌芽階段
對於雲平臺而言,面對超大規模CDN系統,應如何保證平臺持續穩定運行呢?在運維方面,需要實現以下目標,即:
l 監控&巡檢:全面無遺漏、告警精準數量少、定位問題速度快,發現問題於萌芽;
l 集群機器管理:故障快速隔離、故障修復優先級、全程可控無洩漏;
l 帶寬容量管理:容量安全不過載、流量徒增扛得住、滿足保底不浪費、容忍節點離線割接、容忍節點故障離線。
保障監控全面精準
金山視頻雲監控是一個全鏈路的系統架構,從基礎設施到軟體服務到用戶請求再到用戶端上的數據,統統進行了全面收集和整合分析。基於鏈路監控,可以精準的發現是在全鏈路的哪個環節上出現了故障,如「鷹眼」般敏銳、精準。
故障快速隔離
CDN是一個超大型的分布式緩存,從設備和網絡資源方面都有很大的冗餘度,能夠容忍單點故障。能精確識別出來的故障(物理機故障,網絡故障,軟體故障燈),要做到快速隔離,這是快速止損保證服務質量的有效方式。
在大規模節點設備維護方面,金山雲CDN有一整套機器全生命周期管理系統,做到機器設備從採購到上線服務,從上線服務到故障離線,從故障離線到修復回歸線上的整個機器生命周期全程跟蹤,並實現了部分狀態轉換的自動化。
金山視頻雲在機器採購、預處理、壓測、初始化到機器故障被摘除及故障處理的各個環節中,充分保障機器的各種生命狀態的管理和維護。如果出現故障,第一時間進行快速隔離、修復、再利用。各個狀態的機器時刻在監控,就像帶領士兵打仗一樣,高度自動化的盤點前線士兵數量,受傷的士兵數量,及時撤下傷員,快速跟進並治癒傷員再次派上戰場,各個環節銜接流暢,處理及時,從而實現機器的高在線率、高出勤率,保證群體總戰鬥力輸出。
科學的容量調度與建設規劃
容量管理成功的關鍵在於容量調度和建設規劃。
調度是以帶寬容量數據為依據,數據的準確性決定了調度系統的表現是否符合預期,保證容量數據的準確性是做好容量管理和調度的關鍵。金山視頻雲對帶寬容量數據有多種持續進行的稽核手段,從CDN日誌和交換機物理層面採集進行了例行的稽核,進而保障數據的準確性,一旦出現問題立即人工介入幹預,及時消除數據噪聲,將數據修正,保證調度系統的數據支撐是正確可靠的。
建設規劃方面,金山視頻雲根據中國核心運營商的網絡結構特點,結合自身容量數據,按照一定的片區、省份對各個運營商的資源利用率進行分析,產出建設決策,做到片區利用率均衡,每個省份和片區都具備一定的冗餘帶寬,容忍流量徒增,容忍部分節點因故障或者割接而暫時離線。
在目前階段,為了保證服務的絕對穩定,金山視頻雲的調度採用了「自動化方式調度」+「人工幹預」的雙保險機制,來實現容量安全不過載、流量徒增扛得住、滿足保底不浪費、容忍節點離線的目標,隨著調度系統的不斷優化,目前人工幹預已經變得很少。
移動視頻雲初建平臺並非一蹴而就,金山視頻雲在客戶積累中獲取經驗,在培育市場的同時,不斷地提高自身的技術輸出能力。作為視頻雲領域的先行者,金山視頻雲還將在技術上持續打磨、與時俱進,以技術引領視頻行業的革新,將未來「視」界帶到今天。