數據視覺化之關聯分析及其視覺化

隨著商業智慧,數據視覺化這些概念越來越多被人們所熟知,有很多熱情的朋友提出,微策略能不能分享一些數據領域的知識呢?這一篇是來自團隊裡面有著十年數據視覺化沉澱的移動產品經理江薇的分享。


經典案例

說到商業智慧(BI)第一經典案例,那我們就必須引出最最著名的故事:啤酒與尿布。


90年代的沃爾瑪超市出現了這麼一個很有趣的現象:貨架上啤酒與尿布竟然放在一起售賣,這看似兩者毫不相關的東西,為什麼會放在一起售賣呢?


原來,在美國,婦女們經常會囑咐她們的丈夫下班以後給孩子買一點尿布回來,而丈夫在買完尿布後,大都會順手買回一瓶自己愛喝的啤酒(由此看出美國人愛喝酒)。


商家通過對一年多的原始交易記錄進行詳細的分析,發現了這對神奇的組合。於是就毫不猶豫地將尿布與啤酒擺放在一起售賣,通過它們的關聯性,互相促進銷售。


「啤酒與尿布」的故事一度是營銷界的神話,他也成為了商業智能領域傳頌的經典,實實在在的讓我們體會到數據分析的魅力!


「啤酒與尿布」這個案例引出的一個概念就是關聯分析,而我們將以關聯分析作為我們這一系列知識分享的開篇。


什麼是關聯分析(Affinity Analysis)?


關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在於項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。


在我們的日常生活中,企業的經營中, 我們常常碰到這樣那樣的關聯性問題:


1. 餐廳裡面怎麼定義套餐組合?


2. 連接哪兩個機場的航線最繁忙和呈現出最高的晚點率?


對於第一個問題,我們就需要用到關聯分析的一種典型分析方法 – 購物籃分析。它在零售業,通常用來發現哪些商品在一個事務(transaction)里成交的可能性更大。

首先,讓我們舉一個簡單的例子,來介紹購物籃分析裡的關鍵數據概念:

項集(Items)


在一個購物籃中的一件商品即為一項(Item), 若乾項的集合為項集(items), 如{Milk, Bread}構成一個二元項集


支持度(Support)


支持度是指所有項集中同時含有X和Y的概率. 如在全部事務中同時購買了Milk和Bread的概率是2/4=0.5, 即 {Milk->Bread} 的支持度為 50%


置信度(Confidence)


置信度表示在X發生的條件下, Y發生的概率. 如{Milk->Bread} 的置信度為 (2/4)/(3/4)= 0.667

提升度(Lift)


提升度是一個衡量X和Y關聯規則強度的重要指標,它反映了商品之間的真實聯系。如{Milk->Bread} 的提升度為0.667/(3/4)=0.889

於是,我們可以得到下麵的關聯模型數據:

接下來,我們就可以用微策略的關聯可視化 – 網路圖(Network Visualization)來直觀的展示結果啦。做法很簡單:


1. 在儀表盤中插入一個網路圖控制項

2. 把數據各項拖到對應的拖放框,我們的可視化就形成啦。

網路圖中每個圈代表一個條目(商品),條目與條目中間的連線則代表它們之間的關聯性。


● 條目越大表示包含該條目的項目集支持度總和越大


● 連接線顏色越深表示X->Y的置信度越高


● 連接線越粗表示X和Y的提升度越高,關聯規則越強


最後,瞭解了購物籃分析的概念和可視化以後,我們來看看一家西餐廳的分析結果吧。

在圖的左側,我觀察到了一些連接線很粗(關聯規則很強)的商品組合,所以我想把它們作為套餐進行售賣:


1. Street Falafal, Cous Cous,Hummus


2. Street Falafal, Cous Cous,Baklava


3. Cocus Cous, Vegani Falafal


4. Beef Taco, Mac and Cheese


5. Beef Taco, Mini Tacos


同時,在圖的右側, Buffalo Wing和Tre-Tip 有著醒目的大條目圈(支持度總和高)。這也就意味著它們是和其他商品一起購買的概率最大,所以我可以嘗試推出消費任何商品可享受Buffalo Wings或Tre-Tip的打折價活動。


看完套餐的分析,大家是不是已經在摩拳擦掌,想要嘗試更多的問題啦?


回到文章開頭的問題(如下),你能用我們生成的網路圖做可視化解答嗎?


問題: 連接哪兩個機場的航線最繁忙和呈現出最高的晚點率?

關聯性分析我們今天就介紹到這裡啦~,大家如果有任何問題,可以隨時通過留言與我們聯絡。