什麼是A/B測試?AB測試對企業轉型有價值嗎?
2023-03-31 16:34:09 1
什麼是A/B測試?你是怎麼做到的效果如何本文為您共享幾個應用程式場景和案例,告訴您如何在團隊中有效地促進A/B測試。
本文論述了AB測試對企業轉型的價值,以及如何有效地促進AB測試和團隊中AB測試系統的科學設計。
震顫可以說是當今最熱的成長公司。在街上和巷子裡行走的人中,手機很流行。這讓騰訊深感危機,並被迫應對。自2017年下半年以來,震顫在大象水平上呈現爆炸性增長。
它的母公司,字節反彈,價值750億美元,本身就是一個非常實驗性的公司,通過A/B測試推動科學成長。
A/B測試對於標題產品來說是一件很自然的事情,整個公司一直在關注它,因為高級管理人員張一鳴曾在一份報告中寫道,標題發布了一個新的應用程式,其名稱必須通過將N個包放在多個A/B測試中來確定。應用市場。張一鳴告訴他的同事,即使你有99.9%的信心,這是最好的名字,怎麼可能是一個神奇的馬關係測試它
今天的頭條新聞從名字開始使用數據思維。創始團隊沒有頭腦風暴,沒有投票,沒有大人物。相反,它使用科學實驗通過數據觀察來確定標題的名稱。
他們整理出AppStore上各種免費列表的前十名,然後根據姓名(琅琅上話、內涵感受、模擬特殊聲音、公司名稱+用法等)進行分類,分析這些類別的比例。朗朗上口的口語效果最好。
其次,通道AB測試識別具有相似先驗效應的發布通道,並將它們分別放入。界面的標誌功能完全相同。計算核心數據指標,如用戶下載和每個頻道的活動。最後,《今日頭條》的結果是最好的。
A/B測試是產品優化的一種方法。對於相同的優化目標,制定了兩個方案(例如,兩頁)。用戶的一部分可以使用方案,而另一部分使用B方案。計算不同方案的轉化率、點擊率和保留率,比較不同方案的優劣,做出決策。
在A/B測試更成熟的公司,它可能不僅限於A和B版本。可能有ABC測試,ABCD測試,甚至ABCDE測試。
在某些情況下,可能會發生特殊的A/B測試,例如AAB測試。由於整個AB測試系統的準確性需要驗證,因此需要建立兩個對照組,所以稱之為AAB測試。
結合開放數據和深入的行業調查,我們對AB測試頻率進行了綜述。可以看出,公司的市場價值或成交量與AB測試頻率正相關。
許多公司,如谷歌,都擁有相對成熟的A/B測試系統和數據分析平臺。平均每周有2000次A/B測試,包括一些比較複雜的實驗,如推薦算法A/B測試和相對簡單的A/B測試。至於國內一線網際網路公司,如BAT,他們每周也進行數百次A/B測試。
我們合作的大多數公司都有廣泛的行業,如網際網路金融,電子商務,氧氣等。他們沒有能力和精力自己開發一個成熟的A/B測試平臺,所以他們選擇與TestinA/B測試合作,以便快速地將A/B測試服務應用到他們的業務中。
例如,網際網路金融用戶在使用TestinAB測試之前,每周只能進行0.1A/B測試。使用雲A/B測試服務後,A/B測試的頻率大大提高,每周進行大約30次A/B測試實驗。
當然,在其每周30次實驗中,約有13次的實驗會達到轉化指數提高5%-30%,剩下的23次的實驗結果不理想,沒有達到較好的數據指標。
通過這個例子,我們可以看出,大約三分之二的產品構思沒有達到預期,也就是說,轉換率實際上沒有原始版本那麼好,這也是需要A/B測試的根本原因。產品直覺用於產品決策,但23改進不是最優解決方案。
上圖顯示了微軟Bing搜尋引擎AB測試的增長曲線,涵蓋了2008-2015年Bing的AB測試實驗的增長。
可以看出,Bing產品開始時,每周AB測試頻率保持在10-50之間,2012年後,每周BingAB測試頻率進入快速增長期。
圖中右下角的綠色曲線是Bing移動終端的AB測試頻率增長曲線,通過該曲線可以看出Bing非常重視並認真實施AB測試實驗,以推動數據增長,促進業務發展。
我們首先來看一下行動應用程式中A/B測試的四個主要應用程式場景:應用程式、著陸頁面、後端算法和小程序。
APP終端是移動網際網路發展的主要載體。PC或H5(如普通朋友圈屏幕刷屏活動)或廣告登陸頁面可分為登陸頁面。還有後端算法場景,如推薦算法、廣告算法、數千人等。
在不同的場景中,AB測試的重點也是不同的,但是核心目標仍然是圍繞業務的增長,也就是熟悉的PolarisIndex。
這種情況是在其產品的商業化過程中的嘗試。希望提高商店中表達包或道具的支付率,但是為了完成支付目標,第一步是提高商店入口處的點擊率。
因此,他們設置了幾個商店入口方案(改變圖標樣式、複製),通過A/B測試來驗證哪個方案可以最大化商店入口的點擊率。
在驗證過程中,他們還對人群目標進行了有針對性的測試,如日本、中國、韓國和其他地區。最後,他們在這個入口同時推出了7-8個測試版本。通過A/B測試,整體點擊率提高了約80%。
這種情況是網際網路金融行業的應用。他們希望通過更改籤入按鈕的文本來提高保留率。按鈕的文本從籤入改為籤到賺錢。A/B測試進行分配5%的流量版本A和B。
經過測試,我們發現新版本的籤入時間比原始版本高4.17%。95%置信區間的結果表明,小規模人群的測試結果擴展到全規模用戶,95%的概率提高了1.7%-6.6%。P-值小於0.05,表明新舊版本之間有顯著的統計學差異,其中Power100有顯著的統計學效果。
在該測試中,利用TestinAB測試的可視化功能,直接修改相關元素的屬性,實現控制功能,無需開發人員的幹預。
我們知道A/B測試的成本,例如開發多個版本、構建可用的A/B測試和數據分析平臺等。
考慮投入產出比,AB測試平臺有兩個必要條件:一是產品決策影響很大,二是產品方案選擇困難。
如果決策對產品有很大影響,但是選擇並不困難,那麼就不需要A/B測試,例如,是否向App添加Wechat和第三方登錄,這對產品有很大影響,但是決策並不困難,因為有共同的解決方案在行業中。
例如,增加非常小的功能,並且功能入口非常深,用戶數量很少,那麼AB測試的優先級就不高,只有當產品決策滿足影響大和難以選擇的兩個條件時,它才能最適合AB測試。
以我們自己的測試為例,我們將根據函數的影響大小和選擇它們的困難程度來對要測試的函數進行優先級排序,然後確定哪些函數需要進行A/B測試。
通過與我們的合作夥伴(如Freedom、36氪、短消息子彈或51信用卡)通信,我們發現在陸地上進行AB測試有三個關鍵因素:
首先,從人的角度
同時,如果成長或產品團隊的領導者沒有這種意識,認為AB測試並不重要,並且更多地依靠經驗來作出產品優化決策,那麼AB測試也很難做到。
對於APP,包括目前的小程序,新產品層出不窮,產品面臨激烈的競爭,此外,網際網路流量的股利期正在逐漸結束,獲取客戶的成本也在增加。如果你想繼續實現業務增長,最有效的方法是找到AB測試、數據驅動的增長路徑。
行業趨勢決定了所有團隊將慢慢地通過科學實驗遷移到增長路徑上。即使您現在的團隊很難促進A/B測試,但我相信在不久的將來,A/B測試將是產品增長的最重要的驅動力。
我與更多的歐美增長型同行進行了深入的交流,深感他們在網際網路企業中的A/B測試氛圍更強,主要是因為美國的勞動力成本相對較高,他們特別關注投入產出比,所以他們很早就進入了精細操作階段。
自主研發在可控性和業務耦合方面具有一定的優勢,但對於一般企業來說,其研發成本和人力成本都很高。AB測試服務的開發也涉及更嚴格的數據統計。需要部署專業的數據分析員。
如果我們在市場上使用第三方工具,如TestinAB測試服務,我們可以最大限度地降低成本,並加速業務著陸AB測試服務。
例如,當一個小程序用戶在同一天訪問TestinAB測試服務後,在同一天運行三個AB測試實驗。不管是自己研究還是使用第三方工具,關鍵是要適合您的團隊。
這裡需要注意的是,並非所有的實驗都會證明對指標的增長有顯著的影響,如果是這樣,我們就不需要進行實驗。
如果這種情況發生,我們需要告訴我們的團隊成員不要灰心,因為一些實驗證明是無效的,我們將找到一種有效的成長方式。
實驗失敗是一個大概率的事件。我們最好的方法是增加測試的頻率並繼續測試,而不是僅僅嘗試它並回到經驗主義的舊方式。
介紹了著陸AB測試的三個關鍵因素和AB測試的最佳實踐流程,並分享了企業AB測試成熟度模型。
我們將企業A/B測試分為四個階段,即開始階段、成長階段、成熟階段和大規模應用階段,這種能力成熟的核心指標是每周可以進行多少A/B測試。
在初始階段,平均每周可進行0-1A/B測試。整個組織結構處於嘗試A/B測試的開始階段。但是,目前還沒有建立AB測試實驗平臺,實驗仍採用最簡單的分流方法和數據分析方法。
此時,A/B測試不是標準的A/B測試。從實驗評價體系的角度出發,雖然已經確定了轉化率等基本指標,但還沒有形成體系。
什麼是系統指標也就是說,從單一指標體系到多維指標體系,系統跟蹤實驗對產品影響很大。
第三階段是相對成熟的階段,每周可以進行3至10次測試。AB測試已經成為產品迭代過程的一部分,並且需要高級功能,如可視化AB測試和後端AB測試,以滿足各種AB測試需求。
在成熟和大規模應用階段,提到了名詞OEC,OEC可以理解為綜合評價指標,也可以是綜合指標。通過加權平均得到多個單項指標,通過OEC的設置,指導整個組織的績效發展。
下面,我想和大家分享一下設計一個典型的AB測試系統需要哪些能力或特性:
本文重點研究了分層業務分割機制的需求,如果沒有分層業務分割機制,則存在以下局限性:
採用分層的流量劃分機制,可以很好地滿足不同業務或場景之間、不同產品模塊之間的AB測試需求。
作者:陳冠成,睪丸副主席,睪丸A/B檢測業務負責人,歐洲科學院院士PerSte.om教授,發表了6篇關於大數據和8項國際專利的國際論文。他為AtlasandEnjoyableWealth等公司建立了一個AB測試驅動的增長數據系統。