新四季網

什麼是A/B測試?AB測試對企業轉型有價值嗎?

2023-03-31 16:34:09 1

什麼是A/B測試?你是怎麼做到的效果如何本文為您共享幾個應用程式場景和案例,告訴您如何在團隊中有效地促進A/B測試。  

本文論述了AB測試對企業轉型的價值,以及如何有效地促進AB測試和團隊中AB測試系統的科學設計。  

震顫可以說是當今最熱的成長公司。在街上和巷子裡行走的人中,手機很流行。這讓騰訊深感危機,並被迫應對。自2017年下半年以來,震顫在大象水平上呈現爆炸性增長。  

它的母公司,字節反彈,價值750億美元,本身就是一個非常實驗性的公司,通過A/B測試推動科學成長。  

A/B測試對於標題產品來說是一件很自然的事情,整個公司一直在關注它,因為高級管理人員張一鳴曾在一份報告中寫道,標題發布了一個新的應用程式,其名稱必須通過將N個包放在多個A/B測試中來確定。應用市場。張一鳴告訴他的同事,即使你有99.9%的信心,這是最好的名字,怎麼可能是一個神奇的馬關係測試它  

今天的頭條新聞從名字開始使用數據思維。創始團隊沒有頭腦風暴,沒有投票,沒有大人物。相反,它使用科學實驗通過數據觀察來確定標題的名稱。  

他們整理出AppStore上各種免費列表的前十名,然後根據姓名(琅琅上話、內涵感受、模擬特殊聲音、公司名稱+用法等)進行分類,分析這些類別的比例。朗朗上口的口語效果最好。  

其次,通道AB測試識別具有相似先驗效應的發布通道,並將它們分別放入。界面的標誌功能完全相同。計算核心數據指標,如用戶下載和每個頻道的活動。最後,《今日頭條》的結果是最好的。  

A/B測試是產品優化的一種方法。對於相同的優化目標,制定了兩個方案(例如,兩頁)。用戶的一部分可以使用方案,而另一部分使用B方案。計算不同方案的轉化率、點擊率和保留率,比較不同方案的優劣,做出決策。  

在A/B測試更成熟的公司,它可能不僅限於A和B版本。可能有ABC測試,ABCD測試,甚至ABCDE測試。  

在某些情況下,可能會發生特殊的A/B測試,例如AAB測試。由於整個AB測試系統的準確性需要驗證,因此需要建立兩個對照組,所以稱之為AAB測試。  

結合開放數據和深入的行業調查,我們對AB測試頻率進行了綜述。可以看出,公司的市場價值或成交量與AB測試頻率正相關。  

許多公司,如谷歌,都擁有相對成熟的A/B測試系統和數據分析平臺。平均每周有2000次A/B測試,包括一些比較複雜的實驗,如推薦算法A/B測試和相對簡單的A/B測試。至於國內一線網際網路公司,如BAT,他們每周也進行數百次A/B測試。  

我們合作的大多數公司都有廣泛的行業,如網際網路金融,電子商務,氧氣等。他們沒有能力和精力自己開發一個成熟的A/B測試平臺,所以他們選擇與TestinA/B測試合作,以便快速地將A/B測試服務應用到他們的業務中。  

例如,網際網路金融用戶在使用TestinAB測試之前,每周只能進行0.1A/B測試。使用雲A/B測試服務後,A/B測試的頻率大大提高,每周進行大約30次A/B測試實驗。  

當然,在其每周30次實驗中,約有13次的實驗會達到轉化指數提高5%-30%,剩下的23次的實驗結果不理想,沒有達到較好的數據指標。  

通過這個例子,我們可以看出,大約三分之二的產品構思沒有達到預期,也就是說,轉換率實際上沒有原始版本那麼好,這也是需要A/B測試的根本原因。產品直覺用於產品決策,但23改進不是最優解決方案。  

上圖顯示了微軟Bing搜尋引擎AB測試的增長曲線,涵蓋了2008-2015年Bing的AB測試實驗的增長。  

可以看出,Bing產品開始時,每周AB測試頻率保持在10-50之間,2012年後,每周BingAB測試頻率進入快速增長期。  

圖中右下角的綠色曲線是Bing移動終端的AB測試頻率增長曲線,通過該曲線可以看出Bing非常重視並認真實施AB測試實驗,以推動數據增長,促進業務發展。  

我們首先來看一下行動應用程式中A/B測試的四個主要應用程式場景:應用程式、著陸頁面、後端算法和小程序。  

APP終端是移動網際網路發展的主要載體。PC或H5(如普通朋友圈屏幕刷屏活動)或廣告登陸頁面可分為登陸頁面。還有後端算法場景,如推薦算法、廣告算法、數千人等。  

在不同的場景中,AB測試的重點也是不同的,但是核心目標仍然是圍繞業務的增長,也就是熟悉的PolarisIndex。  

這種情況是在其產品的商業化過程中的嘗試。希望提高商店中表達包或道具的支付率,但是為了完成支付目標,第一步是提高商店入口處的點擊率。  

因此,他們設置了幾個商店入口方案(改變圖標樣式、複製),通過A/B測試來驗證哪個方案可以最大化商店入口的點擊率。  

在驗證過程中,他們還對人群目標進行了有針對性的測試,如日本、中國、韓國和其他地區。最後,他們在這個入口同時推出了7-8個測試版本。通過A/B測試,整體點擊率提高了約80%。  

這種情況是網際網路金融行業的應用。他們希望通過更改籤入按鈕的文本來提高保留率。按鈕的文本從籤入改為籤到賺錢。A/B測試進行分配5%的流量版本A和B。  

經過測試,我們發現新版本的籤入時間比原始版本高4.17%。95%置信區間的結果表明,小規模人群的測試結果擴展到全規模用戶,95%的概率提高了1.7%-6.6%。P-值小於0.05,表明新舊版本之間有顯著的統計學差異,其中Power100有顯著的統計學效果。  

在該測試中,利用TestinAB測試的可視化功能,直接修改相關元素的屬性,實現控制功能,無需開發人員的幹預。  

我們知道A/B測試的成本,例如開發多個版本、構建可用的A/B測試和數據分析平臺等。  

考慮投入產出比,AB測試平臺有兩個必要條件:一是產品決策影響很大,二是產品方案選擇困難。  

如果決策對產品有很大影響,但是選擇並不困難,那麼就不需要A/B測試,例如,是否向App添加Wechat和第三方登錄,這對產品有很大影響,但是決策並不困難,因為有共同的解決方案在行業中。  

例如,增加非常小的功能,並且功能入口非常深,用戶數量很少,那麼AB測試的優先級就不高,只有當產品決策滿足影響大和難以選擇的兩個條件時,它才能最適合AB測試。  

以我們自己的測試為例,我們將根據函數的影響大小和選擇它們的困難程度來對要測試的函數進行優先級排序,然後確定哪些函數需要進行A/B測試。  

通過與我們的合作夥伴(如Freedom、36氪、短消息子彈或51信用卡)通信,我們發現在陸地上進行AB測試有三個關鍵因素:  

首先,從人的角度  

同時,如果成長或產品團隊的領導者沒有這種意識,認為AB測試並不重要,並且更多地依靠經驗來作出產品優化決策,那麼AB測試也很難做到。  

對於APP,包括目前的小程序,新產品層出不窮,產品面臨激烈的競爭,此外,網際網路流量的股利期正在逐漸結束,獲取客戶的成本也在增加。如果你想繼續實現業務增長,最有效的方法是找到AB測試、數據驅動的增長路徑。  

行業趨勢決定了所有團隊將慢慢地通過科學實驗遷移到增長路徑上。即使您現在的團隊很難促進A/B測試,但我相信在不久的將來,A/B測試將是產品增長的最重要的驅動力。  

我與更多的歐美增長型同行進行了深入的交流,深感他們在網際網路企業中的A/B測試氛圍更強,主要是因為美國的勞動力成本相對較高,他們特別關注投入產出比,所以他們很早就進入了精細操作階段。  

自主研發在可控性和業務耦合方面具有一定的優勢,但對於一般企業來說,其研發成本和人力成本都很高。AB測試服務的開發也涉及更嚴格的數據統計。需要部署專業的數據分析員。  

如果我們在市場上使用第三方工具,如TestinAB測試服務,我們可以最大限度地降低成本,並加速業務著陸AB測試服務。  

例如,當一個小程序用戶在同一天訪問TestinAB測試服務後,在同一天運行三個AB測試實驗。不管是自己研究還是使用第三方工具,關鍵是要適合您的團隊。  

這裡需要注意的是,並非所有的實驗都會證明對指標的增長有顯著的影響,如果是這樣,我們就不需要進行實驗。  

如果這種情況發生,我們需要告訴我們的團隊成員不要灰心,因為一些實驗證明是無效的,我們將找到一種有效的成長方式。  

實驗失敗是一個大概率的事件。我們最好的方法是增加測試的頻率並繼續測試,而不是僅僅嘗試它並回到經驗主義的舊方式。  

介紹了著陸AB測試的三個關鍵因素和AB測試的最佳實踐流程,並分享了企業AB測試成熟度模型。  

我們將企業A/B測試分為四個階段,即開始階段、成長階段、成熟階段和大規模應用階段,這種能力成熟的核心指標是每周可以進行多少A/B測試。  

在初始階段,平均每周可進行0-1A/B測試。整個組織結構處於嘗試A/B測試的開始階段。但是,目前還沒有建立AB測試實驗平臺,實驗仍採用最簡單的分流方法和數據分析方法。  

此時,A/B測試不是標準的A/B測試。從實驗評價體系的角度出發,雖然已經確定了轉化率等基本指標,但還沒有形成體系。  

什麼是系統指標也就是說,從單一指標體系到多維指標體系,系統跟蹤實驗對產品影響很大。  

第三階段是相對成熟的階段,每周可以進行3至10次測試。AB測試已經成為產品迭代過程的一部分,並且需要高級功能,如可視化AB測試和後端AB測試,以滿足各種AB測試需求。  

在成熟和大規模應用階段,提到了名詞OEC,OEC可以理解為綜合評價指標,也可以是綜合指標。通過加權平均得到多個單項指標,通過OEC的設置,指導整個組織的績效發展。  

下面,我想和大家分享一下設計一個典型的AB測試系統需要哪些能力或特性:  

本文重點研究了分層業務分割機制的需求,如果沒有分層業務分割機制,則存在以下局限性:  

採用分層的流量劃分機制,可以很好地滿足不同業務或場景之間、不同產品模塊之間的AB測試需求。  

作者:陳冠成,睪丸副主席,睪丸A/B檢測業務負責人,歐洲科學院院士PerSte.om教授,發表了6篇關於大數據和8項國際專利的國際論文。他為AtlasandEnjoyableWealth等公司建立了一個AB測試驅動的增長數據系統。  

同类文章
 月球未解之謎有哪些?解密十大月球未解之謎

月球未解之謎有哪些?解密十大月球未解之謎

月球,地球的鄰居,它是環繞地球運行的一顆衛星。雖然我們每每在夜晚抬首時,可以看到月球的存在,但人類其實以月球真的很不了解。我們曾經寫過無數有關月球的詩詞,我們借月亮來抒發內心的感情,但我們卻很少以科學的態度來看待月亮,比如我們有誰去主動的了解月球未解之謎有哪些嗎?如果還不夠了解的話,今天就隨著小編一
 超乎理論30倍的超巨型怪物黑洞

超乎理論30倍的超巨型怪物黑洞

天文學家最近在一個有90億歲的星系中央發現一個超巨型黑洞,但黑洞比現時已知理論所容許的大近30倍,完全超乎想像,連天文學家都嚇得目瞪口呆。超乎理論30倍的超巨型怪物黑洞美國太空總署在2011年以史匹哲望遠鏡,在20億光年外發現星系 SAGE0536AGN,英國基爾大學和中央蘭開夏大學利用南非大望遠鏡
 科學新發現六:超級鑽石

科學新發現六:超級鑽石

基本信息中文名稱科學新發現六:超級鑽石製片地區中國類型紀錄片 片長46分鐘對白語言英語目錄1影片信息2影片簡介摺疊編輯本段影片信息電影名稱:國家地理:科學新發現六:超級鑽石電影類型:紀錄片影片時長:46分鐘影片語系:英語影片字幕:繁中字幕摺疊編輯本段影片簡介鑽石是世界上硬度最高的物質,千百年來鑽石一

地球上的水用完了怎麼辦?可以去別的星球拿

地球上的水並不是無窮無盡的,雖然地球上的水含量很高,但如果有一天淡水資源枯竭了怎麼辦?有人說有海水呀,海水轉化成淡水當然是可以的,小編這裡說的地球水用完是理論上的哈。要是真有那麼一天的話,人類會不會滅亡?答案是否定的,即使地球上的水用完了,我們可以到別的星球去拿,或者是移民到別的星球去。真的有這種星
 「超人」的故鄉氪星真的存在嗎?

「超人」的故鄉氪星真的存在嗎?

在超人漫畫的故事裡,超人因為故鄉氪星發生爆炸毀滅,所以來到地球,不過這個虛構的漫畫情節,最近有突破性發展,因為有天文學家真的發現了氪星的太陽,不但距離地球夠近,這顆母恆星壽命也比太陽系長,有機會發展出像超人這樣高等文明生物。「超人」的故鄉氪星真的存在嗎?美國自然歷史博物館海登天文館館長Neil de

科技之謎:為什麼時光不能倒流?

如果時光能倒流,我將回到曾經……可是這只是『如果』,關於時間的研究,人類已經進行了很多年,可以關於時光倒流一說,至今也沒有一個確切的答案。現在科學界主流的認識是,時光是不能倒流的。那麼這是為什麼呢?下面我們來看看這篇文章。

NASA取消2016年火星探測計劃

最近美國SpaceX公司做了一件讓科學界欣喜若狂的事情,他們成功發射並回收」獵鷹九號「火箭推進器,但是好景不長僅在一天之後,美國NASA就突然宣布:探測器」洞察號「(Insight)上其中一個主要科學原件出了問題,取消原定2016年3月發射該探測器到火星的計劃,這個一項決定對美國的外太空計劃是一個空
 十大奢華科技產品 土豪的專屬

十大奢華科技產品 土豪的專屬

科技便民,我們必須承認我們的社會生活因為科技而越來越便利,但是有些科技並沒有普及到千家萬戶,為什麼呢?因為成本高,價錢高。今天51區小編要給大家介紹的就是那些奢華的科技新產品,跟小編一塊兒去膜拜一下吧!十大奢華科技產品:Krell Illusion II功放Krell此前推出的Illusion 功放
 「天眼」FAST真的能找到外星人嗎

「天眼」FAST真的能找到外星人嗎

9月27日最新消息,世界最大望遠鏡FAST已經竣工,其500米的口徑更是讓人嘆為觀止,那麼這款被外界稱之為天眼的望遠鏡真的能找到外星人嗎?如果「天眼」FAST真的能找到外星人,人類又該如何面對呢?在了解這件事前,我們先來了解一下「天眼」FAST的相關功能吧。在FAST建成以前,世上已存的最大射電望遠
 最新VR虛擬實境科技 讓你一邊飛行一邊健身

最新VR虛擬實境科技 讓你一邊飛行一邊健身

德國初創公司ICAROS GmbH開發出一種結合虛擬與現實的健身器材,可透過虛擬實境(VR)技術,讓使用者一邊健身,同時一邊體驗飛行的快感。這種ICAROS健身器材包含機器本身、控制器和VR眼鏡三項,可藉由VR遊戲來訓練使用者的肌肉。當使用者透過飛行模擬遊戲在享受飛行的同時,此機器可以上下前後移動,