沒有人能夠掌握和分析來自于未來的資料。不過,有一種方法可以使用過去的資料來預(yù)測未來。這種方法稱為「預(yù)測分析」(predictive analytics),而每一天都有組織在運(yùn)用這種方法。
舉例來說,你的公司是否發(fā)展了「客戶終生價值」(customer lifetime value (CLTV) )的衡量標(biāo)準(zhǔn)?那便是運(yùn)用「預(yù)測分析」來決定,長期而言,客戶會跟公司購買多少金額。你的公司擁有「次佳提案」(next best offer)或是產(chǎn)品建議的能力嗎?其實(shí)那就是分析預(yù)測你的客戶,接下來最有可能會購買的產(chǎn)品或服務(wù)。你預(yù)測過下一季的銷售額嗎?使用過數(shù)字營銷模型,決定該把哪一則廣告放在那一家出版商的網(wǎng)頁上嗎?所有的這些事項都是各式各樣「預(yù)測分析」的不同形式。
近來,「預(yù)測分析」變得愈來愈受歡迎,可是身為經(jīng)理人而非分析師的你究竟應(yīng)該知道哪些事情,以便能夠詮釋結(jié)果、做出更好的決定呢?你的數(shù)據(jù)科學(xué)家的工作究竟做得如何?透過理解一些基礎(chǔ)的事實(shí),當(dāng)你跟組織里的其他人合作與溝通「預(yù)測分析」的結(jié)果和建議時,你就會覺得更加地自在。量化分析(quantitative analysis)并不是神奇的解決方案──可是這一項分析通常都是倚賴大量的歷史資料、一些統(tǒng)計上的杰出才能,再加上一些重要的假設(shè)所完成的。接下來,我們就來逐一討論每一項。
資料:對于想要運(yùn)用「預(yù)測分析」的組織來說,缺乏好的數(shù)據(jù)是最常見的障礙。舉例來說,如果你想要預(yù)測客戶未來會購買哪些東西,你便需要有下列的相關(guān)優(yōu)質(zhì)數(shù)據(jù),包括了:他們在跟誰購買(這可能會需要一套客戶忠誠方案(loyalty program),或者至少針對他們的信用卡做大量的分析),他們過去買了哪些東西,那些產(chǎn)品的特性為何(相較于「購買了這項商品的人,也購買了這一項商品」這一類的模型,以特性為基礎(chǔ)的預(yù)測通常都更為準(zhǔn)確),或許還有客戶的某些人口特性為何(年齡、性別、居住地點(diǎn)、社經(jīng)地位等)。如果你擁有多元的銷售管道或是「客戶接觸點(diǎn)」(customer touchpoints),你就需要確定這些管道能夠掌握住客戶購買的數(shù)據(jù),跟你之前的管道掌握的方式一樣。
總而言之,想要打造一套單一的客戶數(shù)據(jù)庫,擁有每位客戶的「獨(dú)特身份識別」(unique customer IDs),以及客戶透過所有的管道所完成的所有購物歷史,會是一項相當(dāng)艱難的工作。如果你已經(jīng)做到了這一點(diǎn),那你就獲得了針對客戶進(jìn)行預(yù)測分析、一項令人難以置信的資產(chǎn)。
統(tǒng)計:各種不同型式的「回歸分析」(Regression analysis)是組織使用來做「預(yù)測分析」的主要工具。這套方法大致上的運(yùn)作方式如下:分析師先提出假設(shè),認(rèn)為一組獨(dú)立變量(比方說:性別、收入、造訪網(wǎng)頁的次數(shù)等)跟一群客戶樣本購買某項產(chǎn)品之間,在統(tǒng)計上有相關(guān)性(statistically correlated)。分析師會進(jìn)行回歸分析,檢視每一項變量的相關(guān)程度;這通常需要重復(fù)嘗試,以便找出變量和最佳模型的正確組合。如果分析師成功地發(fā)現(xiàn),模型當(dāng)中的每一項變量,對于解釋產(chǎn)品購買都很重要,而且這些變量合在一起能夠解釋產(chǎn)品銷售的許多變異。運(yùn)用這個回歸方程式,接下來分析師便可以使用「回歸系數(shù)」(regression coefficients)──每一項變量影響購買行為的個別程度──來創(chuàng)造一個分?jǐn)?shù),預(yù)測購買的可能性。
你瞧!你幫不在樣本里的其他客戶,創(chuàng)造了一套預(yù)測模型。你需要做的就是計算他們的分?jǐn)?shù),如果他們的分?jǐn)?shù)超過某個特定水平,便把產(chǎn)品提供給他們。分?jǐn)?shù)高的客戶相當(dāng)有可能會想要購買這項產(chǎn)品──假設(shè)分析師把統(tǒng)計工作做的很好,數(shù)據(jù)的質(zhì)量也很好的話。
假設(shè):這一點(diǎn)為我們帶來任何預(yù)測模型中的另一項重要因素──構(gòu)成模型基礎(chǔ)的重要假設(shè)。每一項模型都有假設(shè),重要的是要知道假設(shè)為何,并且監(jiān)測假設(shè)是否仍然正確?!割A(yù)測分析」里的重大假設(shè)就是,未來會持續(xù)像過去一樣。如同查爾斯?杜希格(Charles Duhigg)在他的著作《為什么我們這樣生活,那樣工作?》(The Power of Habit)中所描述的,人們會建立根深柢固的行為模式,假以時日之后,通常還會持續(xù)維持下去。不過,有時候他們會改變那些行為,這個時候用來預(yù)測那些行為的模型便可能不再正確。
哪些因素會讓假設(shè)變得不再正確呢?最通常的原因就是時間。如果你的模型是好幾年前就打造好的,便有可能不再能夠準(zhǔn)確預(yù)測目前的行為。時間過去的愈久,客戶的行為就愈有可能已經(jīng)有所改變。舉例來說,某些Netflix的預(yù)測模型是根據(jù)早期因特網(wǎng)的用戶所打造的,因?yàn)橹蟮囊蛱鼐W(wǎng)用戶基本上并不一樣,這些模型便不再適用。第一批因特網(wǎng)的用戶比較聚焦在技術(shù)層面上,而且相對比較年輕;后來的用戶基本上就涵蓋了所有人。
預(yù)測模型的假設(shè)可能不再正確的另一個原因是:如果分析師沒有把一項重要變量包括在模型里,而且那項變量已經(jīng)隨著時間有相當(dāng)大的改變。一個極為貼切、同時也令人毛骨悚然的例子,就是2008年到2009年的金融危機(jī),主要的起因就是模型沒有正確預(yù)測到,房貸客戶可能會如何償還他們的貸款。那些模型并沒有考慮到房價可能會不再上揚(yáng),甚至可能會下跌的可能性。當(dāng)房價真的開始下跌時,后來這些模型預(yù)測償還房貸的能力就變得相當(dāng)?shù)卦?。從本質(zhì)上來說,房價會一直上漲的事實(shí)就是這些模型當(dāng)中隱藏的假設(shè)。
由于錯誤或過時的假設(shè)顯而易見地會讓整家銀行、甚至(幾乎)整個經(jīng)濟(jì)體倒閉,審慎仔細(xì)地檢查這些假設(shè)就相當(dāng)?shù)刂匾=?jīng)理人應(yīng)該總是詢問分析師,哪些是重要的假設(shè),哪些事情的發(fā)生會讓假設(shè)不再正確。而經(jīng)理人跟分析師都應(yīng)該持續(xù)監(jiān)看世界局勢的變化,以便觀察假設(shè)里的重要因素是否可能已經(jīng)隨著時間有所改變。
有了這些基礎(chǔ)理解之后,下列這幾個好問題可以拿來詢問你的分析師:
你可以告訴我,你使用在你分析里的數(shù)據(jù)源嗎?
你確定樣本數(shù)據(jù)能代表母體嗎?
你資料的分布上有任何的異常值(outliers)嗎?這些數(shù)值會如何影響結(jié)果呢?
你分析的背后有哪些假設(shè)?
有任何情況會讓你的假設(shè)變得不正確嗎?
即便有那些需要注意的警告事項,我們可以使用分析技術(shù)來預(yù)測未來這一件事情,還是相當(dāng)?shù)刈屓擞X得難以置信。我們需要做的事情就是搜集正確的數(shù)據(jù)數(shù)據(jù),發(fā)展正確型態(tài)的統(tǒng)計模型,然后對我們的假設(shè)抱持審慎的態(tài)度。相較于深夜電視預(yù)言家「令人嘆為觀止的卡納克」(Carnac the Magnificent)所創(chuàng)造的東西,要創(chuàng)造出「分析預(yù)測術(shù)」可能會更為困難,可是它們通常都更為準(zhǔn)確的多。