天天看點

大資料相關總結(待續)

“區塊鍊”、文本分析、hadoop、lucence

文本分析是說詞性分形,

分詞應該是搜尋引擎中的分詞器  比如現在最常用的是ik  原來的是庖丁

需要做分詞索引:

eg:你幹嘛呢  

你 , 幹嘛,呢

分析詞性和詞義還有詞頻,分詞一般就是中文麻煩點,英文簡單

lxh:

通過海量資料計算分析  可以提取出有用的資料關系模型  這些資料關系模型可以做推薦  可以計算使用者行為  可以做人物或者城市畫像等等

eg1:

 拿到北京200w浮動車資料點  計算到北京的所有的道路網絡上  計算出每條道路的擁堵程度  車速  通行時間

eg2:

在電信做的工作就是拿到電信收集到的全國2e人的信令資料 計算分析  算出每個人工作在那裡  每天幾天上下班  加班多不多  下周二可能出現在那裡 平時喜歡做什麼  再比如每天地鐵站幾點開始擁堵  需要限流排隊  某個景點在每年的什麼時候出現高峰  高峰值大概什麼樣  預測規劃這樣的。

繼續閱讀