搜尋引擎如何優化?
上圖中,上面是“貨”,下面是“人”,大部分人隻能看到“爆款”産品,但是有非常多的産品是無法看到的。是以我們通過優化搜尋引擎,希望更多的、适合的産品展現在更多人的面前,但是效果不好。可是我們想了一個方法,在人群中先找到一個“達人”——所謂“達人”就是比比其他人更會挑選商品的人,ta們比人群中其他人的能力強,總能挑到物美價廉的商品。在大資料樣本中,一般會有“達人”出現。定義了“達人”後,我們跟蹤達人的行為,看ta是如何找到商品的?學習“達人”的搜尋方式後,我們找到更多的好商品和店鋪。然後我們會找到更多的“達人”,不斷的尋找新的“達人”,但是必須要有足夠的樣本量,因為今天我是“達人”,未必明天還是“達人”。是以,流程如下圖:
(1) 定義達人
(2) 偵測達人行為
(3) 發現特色長尾商品發現小而美賣家
(4) 揣摩達人決策
(5) 發現達人
大資料也有盲點
舉個例子,今天早上我看到一件好的襯衫,上班後,在網上搜尋,準備下單,這時老闆找我去開會,我隻能停止搜尋。在會上,我覺得比較無聊,用手機繼續搜尋襯衫,結果看到廣告,就花了100元買了一塊手表。如果從背景資料分析會得出兩個結論:(1)使用者a在pc上搜尋後,對那款襯衫不感興趣(2)使用者b在手機買了一塊手表。如果不是這個人戴一個googleglass,是無法還原真實的購物、浏覽過程的,是不知道使用者a和使用者b是一個人,使用者a并不是對襯衫不感興趣,而是因為沒有時間。是以,盲點是:以交易為核心而非以浏覽為核心。
資料也有生命周期
資料是有生命周期的,不是所有資料都有用的,比如搜集一個關于網站浏覽的資料,通常過了18個月,這個資料就沒有用了。因為經過18個月,整個網站可能都變了。整改網站的變化會影響資料的生命周期。聽說美國要做些法律改變,一個公司搜集個人的資料,隻能儲存最近6個月的資料。
最近的思考
(1) 資料開放還是不開放
(2) 資料存還是不存,如果存存多久?
資料十誡
(1) 好的問題、答案就在裡面
(2) 在實踐中提煉資料
(3) 讓資料變成technology,enable更多人
(4) 讓資料跟着“人”走
(5) 木有資料品質,神馬資料都是浮雲
(6) 以假設資料都能夠擷取去思考問題;
(7) 大資料安全,不是監管
(8) 利用資料拿到更多有用的資料
(9) 建立資料的資料,才有進步
(10) 讓人做人擅長做的事、讓機器做機器擅長做的事
趨勢
dt:data technology
ci:consumer intelligence,就是以使用者為中心的一種說法
原文釋出時間為:2014-04-26
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号