貝葉斯的原理類似于概率反轉,通過先驗概率推導出后驗概率。其公式如下:
在大數據分析中,該定理可以很好的做推導預測,很多電商以及用戶取向可以參照此方式,從已有數據推導出未知數據,以歸類做后續操作。
例如,在一個購房機構的網站,已有8個客戶,信息如下:
用戶ID 年齡 性別 收入 婚姻狀況 是否買房
1 27 男 15W 否 否
2 47 女 30W 是 是
3 32 男 12W 否 否
4 24 男 45W 否 是
5 45 男 30W 是 否
6 56 男 32W 是 是
7 31 男 15W 否 否
8 23 女 30W 是 否
這時來了一個新的客戶,還沒買房,其信息如下:
年齡 性別 收入 婚姻狀況
34 女 31W 否
那么怎么判斷她是否會買呢,是否需要給她做買房推薦呢?
我們用貝葉斯理論來計算其概率。在上述已有的8個客戶中,有四個維度,年齡,性別,收入,婚姻狀況,這四個緯度構成衡量最終是否買房的標準。我們按照最終是否買房,把記錄分為兩個表:
買了房的(圖表1):
沒買房的(圖表2):
買房的概率我們用P(a1)表示,為3/8,沒買房的概率我們用P(a2)表示,為5/8。
我們依次從這四個緯度分析:
年齡:
這里我們按照年齡段,分為20-30,30-40,40+三個階段。這個新客戶的年齡在30-40。
P(b1|a1) --- 30-40買房的概率是1/3
P(b1|a2) --- 30-40沒買房的概率是2/5
收入:
這里我們按照薪水,分為10-20,20-40,40+三個級別。這個新客戶的收入在20-40。
P(b2|a1) --- 20-40買房的概率是2/3
P(b2|a2) --- 20-40沒買房的概率是2/5
婚姻狀況:
新客戶是未婚
P(b3|a1) --- 未婚買房的概率是1/3
P(b3|a2) --- 未婚沒買房的概率是3/5
性別:
新客戶是女
P(b4|a1) --- 女性買房的概率是1/3
P(b4|a2) --- 女性沒買房的概率是1/5
OK,現在開始做整合:
新用戶買房的統計概率為P(b|a1)P(a1),其中P(b|a1)為P(b1|a1)P(b2|a1)P(b3|a1)P(b4|a1),那么為0.33*0.66*0.33*0.33*3/8 = 0.0089
新用戶不會買房的統計概率為P(b|a2)P(a2),其中P(b|a2)為P(b1|a2)P(b2|a2)P(b3|a2)P(b4|a2),那么為0.4*0.4*0.6*0.2*5/8 = 0.012
由結果得知,該用戶不會買房的概率大,所以可以將其分類至不會買房的類別。