新四季網

專訪汪源:網易杭研為孵化創新而生,不止於雲和大數據

2023-07-08 12:59:37

  2016年,網易杭州研究院(以下簡稱「杭研」)成立十周年之際,我們推出系列訪談文章,針對親歷杭研核心技術體系變遷的數位技術大牛發問,揭秘網易雲背後的技術脈絡、研發思想和技術人成長的故事。本期的受訪嘉賓,是網易杭州研究院執行院長汪源。本篇介紹了杭研成立的背景和初衷,杭研技術體系的演進,當前的應用進展,和未來的一些重點工作。除了雲計算的實踐經驗,汪源還解析了網易大數據實踐的思路和成果,並分享了企業實施大數據的關鍵步驟。

  網易杭州研究院執行院長汪源

  ##十年,杭研支撐了整個網易網際網路業務

  十年前在什麼樣的情況下成立的杭研,當時的初衷是什麼?

  汪源:網易的傳統業務板塊包括郵箱、門戶、遊戲等,到2005-2006年的時候,很多創新的網際網路業務形態開始出現,包括博客(如MSN Space)、在線相冊(如Flickr)等,丁總(網易CEO丁磊)認為網際網路領域將出現很多值得探索、孵化的業務創新方向,網易需要在原有的業務板塊之外,重新建立一個面向創新業務孵化、探索的獨立組織,所以成立了網易杭州研究院。

  成立之後,杭研做的第一個業務就是博客,博客能夠讓所有的網民都可以發表自己的觀點,代表Web 2.0時代的誕生。另外,我們還做了在線相冊。在這些探索中,我們發現新的Web 2.0業務形態對技術的要求相比Web 1.0有了質的飛越,需要如海量數據管理等基礎軟體的支撐,因為所有網民帶來的數據量,相比之前門戶網站至少有兩個數量級以上的提升。所以,杭研的第二個職責,就是為網易接下來的網際網路業務發展籌備基礎軟體技術,構建一個現代化的網際網路知識體系和技術體系。

  經過了十年的迭代,現在杭研技術體系的全貌是什麼樣子?

  汪源:網易目前的技術體系可以總結為如下七個方面:

  1. 服務端技術和雲計算體系;

  2. 整個大前端的技術體系,包含Web前端、PC客戶端和移動端;

  3. 信息安全體系;

  4. QA(質量保障)體系;

  5. 運維體系;

  6. 大數據分析/挖掘體系;

  7. 感知與智能體系。

  形成這個體系,這十年來重大技術變革的時間節點和革新的契機有哪些?

  汪源:杭研在不同時期的研發重心與整個網際網路環境的變化基本是一致的,當然網易因為體量的緣故,比一般的網際網路公司能夠更早地感受到新的技術需求。

  - 2006年,杭研研發核心是海量數據管理平臺,包括分布式資料庫和分布式文件系統等,也是現在網易對象存儲的核心組件。外部因素是Web 1.0到Web 2.0的過渡,導致網易整個網際網路產品對數據量的需求突然暴增。

  - 2007年,我們開始做MapReduce這樣的分布式計算平臺,支持大規模分析。因為Web 2.0產品發展逐漸成熟,催生了基於大量數據統計的個性化推薦等數位化運營模式,也帶來了大數據分析的需求。

  - 2009-2010年,重點是內容安全。那個時候SNS風頭正盛,UGC(用戶生產內容)業態發展逐漸成熟,反垃圾需求也越來越強。

  - 2011-2012年,我們從網易的業務規劃,預感到有很多新業務要開發、運維和管理,需要一個很好的基於虛擬化技術的雲計算平臺來支撐,因為傳統的基於物理機的資源管理模式變得非常低效,尤其是對運維而言,所以我們構建了雲計算平臺。

  - 2012-2013年,我們開始做人工智慧,這是人臉、語音等需求的促進。

  基於這些技術,杭研今年推出了網易雲,根據網易對產品品質的一貫要求,這表明了我們對技術積累較高的滿意度,那麼能否說我們目前的技術儲備已經很完善了?

  汪源:技術體系其實永遠是不可能完善的,因為業務發展會不斷提出新的需求,而且一個龐大的技術體系中也會存在很多可以優化的地方。但是,有兩個事實表明我們整個技術體系是很成功的:

  1. 這套技術體系確實成為了一個統一的、標準化的平臺,承載網易的各個網際網路產品,無論是杭研還是非杭研的產品,所有的典型網際網路業務,都在使用杭研構建的這套技術體系來支撐,網易內部不存在不同的技術體系。

  2. 2012-2013年,我們開始做教育、音樂、易信,2014-2015年,我們做了電商、金融、手遊等業務。這三四年,網易業務呈現爆發性增長。但無論是業務範圍還是業務規模,這個技術體系都很好地完成了本職使命——在業務爆發式增長的時候,它能夠及時地提供有力的支撐,沒有出現技術拖後腿的情況。

  現在,我們將這個技術體系逐步產品化、商業化,對外提供網易雲服務,而我們的雲服務也很好地支撐了很多外部客戶的業務。

  這套體系之所以能夠支撐整個網易網際網路業務,您的主要經驗是什麼?

  汪源:這其中有兩個方面的原因。

  1. 技術原因:技術體系的能力可以支持各個業務的需要。例如,針對業務的高可用需求,雲計算提供了基於虛擬化的集群調度能力,和很好的資源隔離機制,即多AZ(Availability Zone)機制,包括普通雲主機和RDS之間相互隔離的機制,這些機制都是成規模的、可用性要求高的網際網路應用所需要的。不同AZ雲主機一定在不同的交換機、不同的物理機下面,做到可用性隔離。我們在IaaS層設計上提供了很好的保障手段,雲計算平臺可以支撐這種placement的需求。在性能方面,我們也針對網絡虛擬化做了很多優化,能夠在萬兆網絡條件下較好地榨乾硬體的性能。所以,無論性能指標還是非功能性指標,我們都能很好地滿足業務的需求。

  2. 團隊原因:網易雲計算平臺是杭研構建的,網易網際網路業務的運維也是杭研運維團隊承擔的。雲計算團隊和運維團隊會聯合制定一些運維規範,除了某些特定的場景使用物理機之外,其他場景都使用標準化的網易雲架構來部署應用。如果要把老業務從物理環境遷移到雲環境,遷移工作也是杭研運維團隊來執行。所以,80%的工作只要運維團隊和雲計算團隊合作就能推動,不需要和所有業務團隊去溝通,難度降低了很多。

  ##大數據,敏捷BI非常重要

  業界認為雲計算為大數據的處理提供了基礎,對於杭研來說,雲計算很好地支撐了網易的網際網路業務,那麼我們的大數據體系如何發揮作用?

  汪源:我們的技術通常都是幫助應用,在網易這樣的網際網路公司裡面,大數據的應用層最主要的是兩種模式:

  一是服務的智能化,讓大數據實時參與業務流程,通過大數據,讓用戶體驗更好。個性化推薦是一個典型的案例,通過個性化推薦提供不同的服務內容給不同的用戶;再如反垃圾技術,用來給郵件自動分類,準確分出是正常郵件、訂閱郵件還是垃圾郵件。

  二是決策的科學化。基於數據的決策、運營,如產品功能、模塊是否存在問題,哪些模塊比較受歡迎,哪些模塊不太受歡迎,都根據數據結果做設計和調整;產品的用戶群有什麼典型的特徵,也可以通過大數據來做分析,得出用戶群的畫像、用戶群的行為分析結果,提供給產品經理、產品策劃作為決策依據;在市場營銷上,哪個渠道帶來的效果更好,也是根據數據的情況來調整。目前,網易的金融、教育、電商、遊戲等業務都有大數據的支撐。

  我們的技術如何支持這兩種模式?

  汪源:大數據應用需要優秀的大數據系統的支持。我們圍繞Hadoop、Spark、Impala等大量開源大數據的框架構建自己的大數據平臺,降低數據開發的門檻,集中管理我們的數據資產。要降低數據開發門檻,首先要做的是讓數據集成變的容易,一個業務的數據通常是分布在業務MySQL、Oracle等資料庫中、分散在成百上千臺的伺服器的日誌中,或者是存在於文件中。如何批量或者實時地把數據收集起來,並同步到大數據系統裡面,是大數據的第一步。所以杭研自己做了很多大數據平臺子產品,比如有一個產品叫做Data Stream,負責把海量的線上日誌數據和MySQL、Oracle等資料庫的數據實時同步到大數據平臺的中。 其次,我們通過可視化界面和SQL簡化數據處理過程, 使得普通的服務端開發人員也能很快上手數據開發。網易有很多大型產品,每個大型產品都有大量數據表,所以沒有一個人能完全知道每張數據表的作用,當然更不知道每個欄位的含義,不知道數據表的計算過程。為管理這些數據資產,首先,我們的平臺得提供好的數據組織方式,使得數據使用人員能夠找到高質量的數據,促進數據在產品間共享,推動數據價值挖掘。其次,平臺還要提供細粒度的權限控制和操作審計,確保數據使用安全。

  企業利用大數據驅動業務發展,您還有哪些比較好的經驗可以分享?

  汪源:企業在實施大數據,第一步就是剛才說的,要考慮數據集成問題。第二步,應該要有很熟悉業務領域的人,梳理數據的模式,梳理數據倉庫的ETL、建模等工作,才能使後續的大數據應用有一個比較好的數據倉庫基礎。比如一個產品,原始數據是日誌、資料庫的數據,通過數據集成技術集成到大數據平臺裡面來,都是可以訪問的,假設這個產品要基於大數據做5件事情,這個時候不應該直接由5個人分頭做這五件事情,應該先由1-2個人針對這個數據做一個很好的數據倉庫的建模設計,把核心的主題、Feature梳理出來,為後面的5個人提供幫助,不然這5個人需要做很多重複性的工作和很多重複性的計算。

  第三,敏捷BI是非常重要的。當前利用數據提升服務和決策能力的理念已經深入人心,整個組織的不同角色都要從不同角度關注數據,老闆、高層、中層甚至基層都有可能需要用數據來做工作的分析和決策,整個大數據的使用場景在組織中是分布式存在的,所以需要企業大數據分析能力很好地賦能,讓組織中的各個角色都能夠比較方便地獲得想要的大數據分析能力。大數據具有「3V」的特點,並且數據往往是分散在不同的業務系統,傳統BI 使用門檻高,以IT人員為中心,業務人員要把需求提交給IT人員,IT人員排班、建立數據模型、製作報表,往往要幾天甚至幾周,無法做到實時指導決策;如果IT人員對需求理解錯誤,或者業務根據當前報表要做進一步的分析,這個過程還要循環,業務上錯失良機的概率就更大了。

  對於這樣的挑戰,網易已經有了解決方案,我們研發的敏捷BI工具網易有數,具有數據可視化、實時多維分析的能力,在網易內部已經有很多的應用。敏捷BI以業務人員為中心,更理解業務和需求的業務人員可以自助分析,結果是多贏的:IT部門可以在管控權限的基礎上從大量枯燥的提數需求中解放出來;業務部門可以根據業務情況進行實時分析,根據分析結果調整業務,再根據數據來驗證調整的結果;管理者可以隨時隨地了解經營數據狀況。這種結果也是傳統大中型企業數位化轉型所需要的,我們將會輸出這方面的能力,助力他們數位化轉型。

  ## 未來,共創雲上精彩世界

  您如何看待杭研未來發展面臨的挑戰?

  汪源:杭研面臨的主要挑戰是商業化層面。杭研的基礎,主要在於工程技術方面,也有一些產品方面的技術,但面向企業級市場的商業化能力是我們的弱項,這是我們面臨的一個很大的挑戰。應對這個挑戰有兩條路,一是仔細選擇特定的行業、領域,有針對性地構建比較強的面向企業的商業化團隊和能力,包括銷售、售前諮詢、交付實施、售後服務等方面的能力,但是我們不會鋪開來做,只選擇一些網易比較擅長的領域,或者自認為能夠聚焦、專注做的領域。其次,就是我們的產品要和第三方合作夥伴進行開放合作,共創雲上精彩世界。

  網易技術商業化最典型的是網易雲,丁總說網易雲要解放程式設計師,您認為我們現在距離這個目標還有多遠?

  汪源:解放程式設計師,就是讓程式設計師從那些低級、繁瑣的工作中解脫出來,做一些有價值、有創造力的工作。通過技術的手段,把底層基礎的重複性工作封裝成現成可用的解決方案,就達到解放程式設計師的目的。其實網易技術體系一直都在解放程式設計師,我們非常關注這件事情。比如我們在做一個大數據的Benchmark,傳統的Benchmark是比拼性能的,但我們是用來比較哪種大數據編程模型的編程效率最高,而不是運行效率最高,這就是典型的重視解放程式設計師的思路。

  至於說解放到多大的程度,我們確實有一些統計數據。比如整個前端開發,使用網易大前端的技術框架,工作效率可以提高1倍;如果程式設計師不僅僅指開發,還包括運維,我們也針對雲計算對運維效率的提升做過統計,包括創建主機、部署資料庫、發布上線等20多個常見工作,使用雲計算平臺,相比之前使用物理環境,通常可以節約80%的工作量。這些側面不是主觀感知,是我們花了比較多的精力,從具體數據統計得到的結論,是可以說明問題的。但是解決了這些問題之後,還有很多解放程式設計師的事情可以繼續做,而程式設計師會越來越走向更高附加值的工作,可以直接和業務掛鈎。

  從另一個角度來看,機器運行效率可以通過硬體升級、軟體優化等方式解決,而硬體成本越來越低,但人力成本會越來越高,所以重點關注提高人的勞動效率,而不是機器運算效率,也符合商業規律。所以我們不僅解放網易的程式設計師,也要通過網易雲解放別人家的程式設計師。

  談到「共創雲上精彩世界」,未來還要做哪些事情?

  汪源:網易雲不同於一些典型的IaaS雲,是有很多場景化的能力的。要把網易雲做好,讓這些場景化的能力落到實處,更加需要和合作夥伴一起開拓市場。這些典型的場景化能力,可以集成到合作夥伴面向某個業務的解決方案中去。通過場景化的能力跟合作夥伴之間有一個集成的關係,形成網易雲的一個生態構建,最終獲得市場成功。生態不是我們獨家的想法,但我們更加強調生態中我們不尋求主導地位。我們的產品線和網易找業務場景、找應用的風格一脈相承,自然而然形成一種格局,未來會越來越強調這種格局,通過比較擅長的場景化能力輸出,來實現網易雲業務的成長。

  大數據方面也可以做類似的事情。比如敏捷BI工具網易有數,我們正在致力於讓它能夠和不同行業的集成商、軟體提供商做一個很好的集成,讓數據可視化能力可以集成到各個面向業務的解決方案中去,因為網易不可能把所有行業解決方案都做出來,也沒有必要做,關鍵是把核心敏捷BI平臺做好,之後就跟很多生態合作夥伴來合作。

同类文章

搜狗團購導航 情人節電影攻略

    作為熱門電影檔期,今年情人節檔期依舊延續春節檔火熱氣勢。搜狗團購導航精心為用戶整理2014年情人節上映電影,為大家提供特別準備的情人節電影攻略。   由同名熱播電視劇升級而成的《北京愛情故事》;陳坤、劉嘉玲組成影帝影后陣容的《過界男女》;情人節唯一3D愛情片《江南愛情故事》;「型男組合」杜淳

思科發布2014財年第二季度業績報告

    ·第二季度銷售額:112億美元(與上財年同期相比降低8%)   ·第二季度每股收益:根據GAAP計算為0.27美元;非GAAP每股收益為0.47美元  CTI論壇(ctiforum)2月13日消息(記者 李文杰):全球領先的致力於改進人們聯絡、溝通和協作方式的網絡解決方案提供商思科公司今天發

情人節臨近 1號店巧克力等商品銷量激增

    2月14日情人節馬上就要到了,鮮花、巧克力等應景商品走俏市場,商家們也看準時機,各種促銷精彩紛呈。1號店相關負責人透露,目前1號店最熱銷的情人節產品是巧克力,從10號以來,巧克力的銷量就不斷攀升,「兩種商品的單日銷售額可以達到日常的4倍左右,並且還有上升的趨勢」。     據悉,1號店從2月

當"湯圓"邂逅"玫瑰"樂語通訊邀您盡享雙重約"惠"

    馬年春節在一片「馬上發紅包,馬上有禮錢」的呼聲中熱熱鬧鬧地走到了尾聲。元宵節作為最後的重頭戲,歡樂不減更增妙趣——因為今年元宵節甜蜜偶遇情人節,上演了「湯圓」邂逅「玫瑰」的浪漫一幕。雙節當天,國內領先的電信零售服務企業樂語通訊特意奉上雙重約惠,為消費者傾情打造一份專屬的浪漫。  2月14日,

全品類讓利助陣 1號店火爆開年送好運

    新年新氣象,開年迎好運。2月11日,1號店推出「今年你要火」開年大促,活動期間,除了豐富多彩的促銷活動,1號店還為消費者準備了面值從15—50元不等的抵用券,所有登陸1號店的消費都可以參與抽獎,賺好運。   據悉,1號店「今年你要火」將從2月11日持續到16日。1號店特意為活動挑選了數百款熱

做男神還是做孝子? 1號店214消費支招

    泡泡網資訊頻道2月10日 再過一周,就是2月14日情人節了,正好今年元宵也在這一天。許多人開始好奇,當元宵節擁抱情人節,當溫馨親情遇上浪漫愛情,情侶們會做出哪種選擇:是回家陪伴老人吃元宵,做個孝子呢?還是與愛人相約,度過一個浪漫夜晚?還在犯愁的消費者不如上1號店看看。「雙節」將至,1號店推出

1號店"以舊換新"再升級筆記本平板電腦納入回收範圍

    近日,一項關於「我們淘汰的手機去哪了」的公益調查顯示,70%的網友都把自己淘汰的手機、舊電腦給了父母。春節期間,更是有不少網友在回家過年期間將舊手機送給父母視為貼心之舉。這一話題在網絡上迅速引發熱議,不少人認為舊手機存在安全、健康隱患,雖說棄之可惜,但用「以舊換新」的方式換購一臺新的智能機給

春晚打造"舌頭"新搭檔 地板劇側躺劇掀新潮

    隨著農曆新年假期的結束,馬年春節漸行漸遠,但人們對於春晚的討論依舊不絕於耳。在今年馬年春晚的舞臺上,一對新搭檔吸引了大眾的關注,就是堪稱「毒舌王后」的蔡明與「中國好舌頭」華少,二人的「唇槍舌戰」讓小品《擾民了您》受到觀眾們的一致好評,成為新一年極具潛力的一對歡喜搭檔。   不過,兩大「舌頭」

帝度隨雪龍號共度世界最南端春節

   隨著春節長假結束,各行業工作者經過與親朋好友相聚的短暫休憩,紛紛返回工作崗位,以積極心態應對新一年的工作。而在地球最南端的南極,帝度冰箱與搭乘「雪龍」號的中國第30次南極科學考察隊,分別在中山站、長城站、泰山站,以及「雪龍」號破冰船上度過了整個春節。雖然春節期間無法與親人相聚,但科考隊員們仍然
「不限量」流量只是幌子 流量卡到底哪家最划算?

「不限量」流量只是幌子 流量卡到底哪家最划算?

      為了能使用到更為實惠的移動流量,相信不少人都會有購買流量卡的打算,而如果是流量需求比較大的用戶,則還有不限量流量套餐和日租卡可以選擇。筆者最近正好也有辦流量卡的需求,於是便研究了下目前主要的幾家流量卡、日租卡和不限量流量套餐,一起來看看那家的流量服務最適合你吧!1、米粉卡      小米