演講精華:車品覺“實戰大資料”高峰論壇

2021-11-07 22:13:21

搜尋引擎如何優化？

上圖中，上面是“貨”，下面是“人”，大部分人隻能看到“爆款”産品，但是有非常多的産品是無法看到的。是以我們通過優化搜尋引擎，希望更多的、适合的産品展現在更多人的面前，但是效果不好。可是我們想了一個方法，在人群中先找到一個“達人”——所謂“達人”就是比比其他人更會挑選商品的人，ta們比人群中其他人的能力強，總能挑到物美價廉的商品。在大資料樣本中，一般會有“達人”出現。定義了“達人”後，我們跟蹤達人的行為，看ta是如何找到商品的？學習“達人”的搜尋方式後，我們找到更多的好商品和店鋪。然後我們會找到更多的“達人”，不斷的尋找新的“達人”，但是必須要有足夠的樣本量，因為今天我是“達人”，未必明天還是“達人”。是以，流程如下圖：

（1）定義達人

（2）偵測達人行為

（3）發現特色長尾商品發現小而美賣家

（4）揣摩達人決策

（5）發現達人

大資料也有盲點

舉個例子，今天早上我看到一件好的襯衫，上班後，在網上搜尋，準備下單，這時老闆找我去開會，我隻能停止搜尋。在會上，我覺得比較無聊，用手機繼續搜尋襯衫，結果看到廣告，就花了100元買了一塊手表。如果從背景資料分析會得出兩個結論：（1）使用者a在pc上搜尋後，對那款襯衫不感興趣（2）使用者b在手機買了一塊手表。如果不是這個人戴一個googleglass，是無法還原真實的購物、浏覽過程的，是不知道使用者a和使用者b是一個人，使用者a并不是對襯衫不感興趣，而是因為沒有時間。是以，盲點是：以交易為核心而非以浏覽為核心。

資料也有生命周期

資料是有生命周期的，不是所有資料都有用的，比如搜集一個關于網站浏覽的資料，通常過了18個月，這個資料就沒有用了。因為經過18個月，整個網站可能都變了。整改網站的變化會影響資料的生命周期。聽說美國要做些法律改變，一個公司搜集個人的資料，隻能儲存最近6個月的資料。

最近的思考

（1）資料開放還是不開放

（2）資料存還是不存，如果存存多久？

資料十誡

（1）好的問題、答案就在裡面

（2）在實踐中提煉資料

（3）讓資料變成technology，enable更多人

（4）讓資料跟着“人”走

（5）木有資料品質，神馬資料都是浮雲

（6）以假設資料都能夠擷取去思考問題；

（7）大資料安全，不是監管

（8）利用資料拿到更多有用的資料

（9）建立資料的資料，才有進步

（10）讓人做人擅長做的事、讓機器做機器擅長做的事

趨勢

dt：data technology

ci：consumer intelligence，就是以使用者為中心的一種說法

原文釋出時間為：2014-04-26

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

演講精華:車品覺“實戰大資料”高峰論壇

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark