Case:
輸入:文本檔案
輸出:
(158,)
(28,the)
(19,to)
(18,Spark)
(17,and)
(11,Hadoop)
(10,##)
(8,you)
(8,with)
(8,for)
算法:
首先實作wordcount,topk實作是以wordcount為基礎,在分詞統計完成後交換key/value,然後調用sortByKey進行排序。
java
scala
應用場景:
TopK模型常用于分析消費者熱門消費分析、網站/部落格點選量、使用者浏覽量分析,最新熱詞及熱門搜尋等的分析處理