時間緊張,先記一筆,後續優化與完善。
整頓的資料挖掘基本概念一書中的第一章的知識點
資料挖掘:從資料中提取有效模型的過程。其中,提出的模型可是以資料的彙總結果,不過一般情況下是資料中極端的特征所組成的集合。
邦弗朗尼道理:資料挖掘中考核資料的一個誤區,指某個明顯的特征如果是很有可能在随機資料中湧現的話,那麼根據這個明顯的特征所取得的資料就具有不可依賴性。
TF.IDF:計算詞頻和詞語重要度的一個計量名額
幂定律:類似于馬太效應,可以表現為y=cxa,a為x的指數,此處a就是幂。這個定律在很多地方使用
每日一道理
古人雲:“海納百川,有容乃大。”人世間,不可能沒有沖突和争吵,我們要以磊落的胸懷和寬容的微笑去面對它 。哈伯德也曾說過:“寬恕和受寬恕的難以言喻的快樂,是連神明都會為之羨慕的極大樂事。”讓我們從寬容中享受快樂,從諒解中體會幸福吧!
比如pageRank,商品銷量,包括TF.IDF詞頻統計中。
哈希,索引,這些也很重要,就不分析了~~