天天看點

spark-TopK算法

Case:

輸入:文本檔案

輸出:

(158,)

(28,the)

(19,to)

(18,Spark)

(17,and)

(11,Hadoop)

(10,##)

(8,you)

(8,with)

(8,for)

算法:

首先實作wordcount,topk實作是以wordcount為基礎,在分詞統計完成後交換key/value,然後調用sortByKey進行排序。

java

scala

應用場景:

TopK模型常用于分析消費者熱門消費分析、網站/部落格點選量、使用者浏覽量分析,最新熱詞及熱門搜尋等的分析處理