提升產品業績的秘訣:A/B測試

簡單來說,A/B 測試背後的原理非常簡單:嘗試兩件不同的事情,選出比較好的那一個。

受疫情影響,身邊有很多企業主來詢問投入新事業(如:電商網站)經營的做法,大家對於網站經營的想法似乎是:「只要將產品丟到網站上,一切美好的購物經驗將會自然發生…」,但事實真的是如此嗎?筆者想挑戰的是:「你也許知道這些消費者要的是什麼,但你真正了解他們多少?產品品質、價格、提供的服務、運費等或許消費者都在意,但哪個是他們「最」在意的?」

俗話說:「千萬不要將所有雞蛋放到一個籃子里」。這句話主要傳達出分散風險的道理,那就是:做任何事一定要有「B 計劃」(如:戶外活動如果碰到天候不佳一定要有一個室內的備案)。在網路蓬勃發展的今天,網民對於商品服務的敏銳度日益上升,好的評價自然對於商品銷售有直接的貢獻;反之,不好的評價不僅會導致產品失敗,更有可能會影響公司整體營運。

A/B測試是什麼?

A/B 測試又稱為「分割測試(split testing)」或「線上實驗(online experiment)」,它是用你的用戶群體來進行的即時實驗。在這種測試中,你會讓隨機用戶看到一個版本,稱為「變體(variant)」,讓其他人看到另一個變體,然後比較哪一種變體更能夠實現目標。測試結束後,通常會讓表現最好的變體之用戶增加至100%。

舉例來說,A/B 測試可運用在網頁優化方法,像是增加轉化率(conversion rate)、註冊率等網頁指標。簡單來說,就是網站的開發者會隨機對使用者展示不同設計版本的網頁,並會追蹤使用者行為以分析使用者對哪一種設計的使用頻率更高,例如:哪一個註冊頁面的使用者更願意註冊?哪一個通路更適合我們的目標族群?A/B測試現在被普遍應用於科技新創企業的網頁端。

A/B 測試應用範圍包括網頁、 App 介面、廣告,有些公司也會利用 A/B 測試分析新產品對使用者產生的衝擊、影響。使用 A/B 測試的好處是可以進行小範圍的投放調查,公司可以利用 A/B 測試,了解使用者對於新服務、新廣告、新產品的喜好後,再進行網頁改版或是大規模廣告投放。

對於Google這樣的網路巨擘來說,要想將龐大且異常複雜的產品線經營好,也必須採用類似A/B測試的多重選擇策略,針對一個目標客群往往得開發兩個甚至多個產品,用於相互比照借鑒與競爭。如果一個產品失敗,那麼則希望其他同類產品能夠成功。

以下是Google曾經應用 A/B 測試理念的產品案例:

  • “谷歌Nexus手機” VS 其他廠商安卓手機:看誰能生產更好的智慧型手機;
  • “Google.com” VS “ iGoogle”:搜索引擎與個人化首頁的對決;
  • “Google Video” VS “YouTube”:谷歌不僅是一個搜索引擎,也是視頻內容平台;
  • “Google Maps” VS “Waze”:併購在線地圖 Waze 僅僅是為了獲得交通流量數據;
  • “Google Maps” VS “Google Earth”:前者是基於網頁的應用,後者是一個獨立的應用程序;
  • “Google+” VS “Orkut”:兩個社交網絡產品並行發展,和諧共存的局面持續了三年,最終 Google+獲勝;
  • “Android’s Gallery” VS “Google+ Photos”:Nexus 5 手機上的兩種照片應用,前者針對本地圖片,後者基於 Google+雲端儲存服務。

簡單來說,A/B 測試背後的原理非常簡單:嘗試兩件不同的事情,選出比較好的那一個

比較複雜的問題在於,這個實驗要進行多久?何時能確信第二種方案比第一種方案更好?此時就須要了解統計學了。

A/B 測試背後的統計學知識

通常實驗的時間及次數愈久,你對結果就愈有信心。然而,對PM來說,A/B 測試卻也涉及到輕重緩急-到底要讓多少人看過「A」和「B」變體才能做出決定?但又不能執行太久,以免永遠無法做出決定、無法前進和嘗試新事物。因此,我們希望執行實驗到成功指標具有「統計意義」為止,也就是指標的差異不太可能是隨機造成的。

有兩種計算方式得出「統計意義」:

1.信賴區間(confidence interval)

所謂信賴區間指的是,在母體不確定的情況下,以樣本推估母體時,通常會以一個區間(Interval)來表示估計結果,這樣的區間就稱為信賴區間。

舉例來說,如果在一次大選中某人的支持率為55%,而信心水準0.95上的信賴區間是(50%,60%),那麼他的真實支持率落在50%和60%之區間的機率為95%,因此他的真實支持率不足50%的可能性小於2.5%(假設分布是對稱的)。

對應到新產品開發來說,實驗運行得愈久,信賴區間就縮得愈小(也就是範圍會縮小,我們可以更明確地了解預期的影響)。如果結果是1%到2%,這就意味者你的實驗有95%的可能性可改善指標1%到2%之間。對PM而言,可以將它視為成功的結果。

2.p-value

p-value代表的意涵是,如果上述指標不成功的話(也就是指標是失敗或中性時),你在實驗中看到這種結果的可能性。大多數的公司將截止點設為0.05(5%),這相當於95%的信賴區間。

p-value與信賴區間有直接的關聯性。若p值低於0.05,則95%信賴區間的下限大於零。大多數的PM比較喜歡觀察信賴區間,因為它提供了更多關於最好和最壞情況的資訊。

那麼統計數據對實驗有什麼意義?

  • 進行更久的實驗可以更準確地了解影響作用。
  • 忽略在統計上不明顯的指標變化,尤其是在沒有預先記錄(pre-register)它們時。有些指標乍看之下有所改善或變差,其實只是隨機的結果。
  • 不要只為了檢查哪些改變有效,而執行大量的隨機實驗,否則你就無法有信心地知道哪些事情有效。
  • 區域性指標(如:按下按鈕)比關鍵性指標(如:客戶保留率)更容易改變。

如何執行A/B測試

筆者以企業網站的首頁為例,PM先請網站設計及開發同仁先創建一個頁面的幾個不同版本之測試變數,然後根據網站平台的承載(loading)能力,同時放上去開始測試,或是分別放上去測試它們。A/B測試常見的測試變數如下:

  • 行動按鈕(Call-To-Actions):位置、用字、尺寸、顏色…
  • 文案:標題、價值傳達、商品描述、 內容多寡…
  • 表單:長度、類型、用字…
  • 版面配置:頁面長短、板塊位置…
  • 促銷方案:不同商品組成、不同價位…
  • 圖片:位置、內容、尺寸…
  • 比較:圖片視頻、圖片VS.文字、圖片A VS. 圖片B 、文案A VS. 文案B 、行動按鈕A VS. 行動按鈕B…

若無法同時測試它們的時候,可以將其一週一換,然後盡可能地讓每一周訪問者(visitors)的情況和網站的外部因素都保持一致(避免外部因素干擾)。從記錄當中去選擇最適切的版本作為正式上線的版本。

另外,網路上也有許多知名的 A/B測試工具,如: OptimizelyVWOUnbounce 等等。PM可以選擇適用的工具來提升效率。

結語

對產品經理來說,A/B測試可能是最廉價的測試方式了,因為你拿著現成的資源和工具就能實現。即使不想真的做測試,這也是一個很好的方法讓你的團隊成員更了解用戶對產品的想法並且能從中找到樂趣。要說A/B測試最大的問題應該就是:難以控制的外部因素(如:外部促銷、搜索流量、新聞影響以及淡旺季影響…等),因為你無法100%的保證這些結果都是由網頁造成的,建議PM們在下結論前先打個折扣吧!

另外,A/B測試也只能測試有限的幾種事物,而且這些被測物件都很簡單。因此,如果想要瞭解一個頁面、版本內部各元件之間的聯繫和相互促進與否,用這個方法就很困難了。

回到筆者朋友的新事業(電商網站)經營上,『要讓消費者有美好的購物經驗出現,先前的A/B測試,不僅可以少走冤枉路,相信網站成功的機率也將大增』。

本文作者:PM大叔

圖片來源:Image from Pixabay

若有轉貼需求,請來信(service@pmtone.com)討論。 轉貼時禁止修改內容及標題、須保持所有連結、禁止商業使用,並且必須註明原文標題、連結、及作者訊息。

覺得這篇文章好嗎? 請分享給您的朋友吧~

Facebook
Twitter
LinkedIn
Email
列印
Gary Hsia (夏松明)

Gary Hsia (夏松明)

夏松明(PM大叔):產品管理專家,企業數位轉型輔導顧問,FB「產品經理菁英會」社團創辦人,PM Tone | 產品通 產品經理知識社群網站 站長,目前從事顧問諮詢及培訓講師一職,主要以企業培訓及輔導企業產品開發、經營管理及業務行銷等顧問講師工作。 同時擁有「PMP國際專案管理師證照」、「WBSA高階策劃師認證」及「NPDP新產品開發專業證照」,也受邀至企業內部、大專院校授課並擔任公開班講師,是業界少數具備「經營管理」、「新產品開發」與「品牌行銷」等專業領域的資深顧問。

延伸閱讀