Spark應用HanLP對中文語料進行文本挖掘--聚類

軟體：IDEA2014、Maven、HanLP、JDK；

用到的知識：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;

用到的資料集：

http://www.threedweb.cn/thread-1288-1-1.html

（不需要下載下傳，已經包含在工程裡面）；

工程下載下傳：

https://github.com/fansy1990/hanlp-test 。

問題描述

現在有一個中文文本資料集，這個資料集已經對其中的文本做了分類，如下：

其中每個檔案夾中含有個數不等的檔案，比如環境有200個，藝術有248個；同時，每個檔案的内容基本上就是一些新聞報道或者中文描述，如下：

現在需要做的就是，把這些文檔進行聚類，看其和原始給定的類别的重合度有多少，這樣也可以反過來驗證我們聚類算法的正确度。

解決思路：

2.1 文本預處理：

1. 由于檔案的編碼是GBK的，讀取到Spark中全部是亂碼，是以先使用Java把代碼轉為UTF8編碼；

2. 由于文本存在多個檔案中（大概2k多），使用Spark的wholeTextFile讀取速度太慢，是以考慮把這些檔案全部合并為一個檔案，這時又結合1.的轉變編碼，是以在轉變編碼的時候就直接把所有的資料存入同一個檔案中；

其存儲的格式為：每行：檔案名.txtt檔案内容

如： 41.txt 【日期】199601....

這樣子的話，就可以通過.txtt 來對每行文本進行分割，得到其檔案名以及檔案内容，這裡每行其實就是一個檔案了。

2.2 分詞

分詞直接采用HanLP的分詞來做，HanLP這裡選擇兩種：Standard和NLP(還有一種就是HighSpeed，但是這個木有使用者自定義詞典，是以前期考慮先用兩種)，具體參考：

https://github.com/hankcs/HanLP

;

2.3 詞轉換為詞向量

在Kmeans算法中，一個樣本需要使用數值類型，是以需要把文本轉為數值向量形式，這裡在Spark中有兩種方式。其一，是使用TF-IDF；其二，使用Word2Vec。這裡暫時使用了TF-IDF算法來進行，這個算法需要提供一個numFeatures，這個值越大其效果也越好，但是相應的計算時間也越長，後面也可以通過實驗驗證。

2.4 使用每個文檔的詞向量進行聚類模組化

在進行聚類模組化的時候，需要提供一個初始的聚類個數，這裡面設定為10，因為我們的資料是有10個分組的。但是在實際的情況下，一般這個值是需要通過實驗來驗證得到的。

2.5 對聚類後的結果進行評估

這裡面采用的思路是：

得到聚類模型後，對原始資料進行分類，得到原始檔案名和預測的分類id的二進制組(fileName,predictId)；
針對（fileName，predictId），得到（fileNameFirstChar ,fileNameFirstChar.toInt - predictId）的值，這裡需要注意的是fileNameFirstChar其實就是代表這個檔案的原始所屬類别了。
這裡有一個一般假設，就是使用kmeans模型預測得到的結果大多數是正确的，是以fileNameFirstChar.toInt-predictId得到的衆數其實就是分類的正确的個數了（這裡可能比較難以了解，後面會有個小李子來說明這個問題）；
得到每個實際類别的預測的正确率後就可以去平均預測率了。
改變numFeatuers的值，看下是否numFeatures設定的比較大，其正确率也會比較大？
具體步驟：

3.1 開發環境--Maven

首先第一步，當然是開發環境了，因為用到了Spark和HanLP，是以需要在pom.xml中加入這兩個依賴：

其版本為：portable-1.3.4.version>、 1.6.0-cdh5.7.3.version>。

3.2 檔案轉為UTF-8編碼及存儲到一個檔案

這部分内容可以直接參考：src/main/java/demo02_transform_encoding.TransformEncodingToOne 這裡的實作，因為是Java基本的操作，這裡就不加以分析了。

3.3 Scala調用HanLP進行中文分詞

Scala調用HanLP進行分詞和Java的是一樣的，同時，因為這裡有些詞語格式不正常，是以把這些特殊的詞語添加到自定義詞典中，其示例如下：

作者：fansy1990

來源：CSDN

原文：

https://blog.csdn.net/fansy1990/article/details/77577061

運作完成後，即可得到分詞的結果，如下：

考慮到使用友善，這裡把分詞封裝成一個函數：

輸入即是一個中文的文本，輸出就是分詞的結果，同時去掉了一些常用的停用詞。

3.4 求TF-IDF

在Spark裡面求TF-IDF，可以直接調用Spark内置的算法子產品即可，同時在Spark的該算法子產品中還對求得的結果進行了次元變換（可以了解為特征選擇或“降維”，當然這裡的降維可能是提升次元）。代碼如下：

變量docs是一個DataFrame[fileName, sentence_words] ,經過HashingTF後，變成了變量 featurizedData ,同樣是一個DataFrame[fileName,sentence_words, rawFeatures]。這裡通過setInputCol以及SetOutputCol可以設定輸入以及輸出列名（列名是針對DataFrame來說的，不知道的可以看下DataFrame的API）。

接着，經過IDF模型，得到變量 rescaledData ，其DataFrame[fileName,sentence_words, rawFeatures, features] 。

執行結果為：

3.5 建立KMeans模型

直接參考官網給定例子即可：

這裡有計算cost值的，但是這個值評估不是很準确，比如我numFeature設定為2000的話，那麼這個值就很大，但是其實其正确率會比較大的。

3.6 模型評估

這裡的模型評估直接使用一個小李子來說明：比如，現在有這樣的資料：

其中，1開頭，2開頭和4開頭的屬于同一類文檔，後面的0,3,2,1等，代表這個文檔被模型分類的結果，那麼可以很容易的看出針對1開頭的文檔，

其分類正确的有4個，其中("123.txt",3)以及（“126.txt”,1）是分類錯誤的結果，這是因為，在這個類别中預測的結果中0是最多的，是以0是和1開頭的文檔對應起來的，這也就是前面的假設。

把同一類文檔分到同一個partition中；

Spark應用HanLP對中文語料進行文本挖掘--聚類

這裡的file_index，是對不同類的文檔進行編号，這個編号就對應每個partition，看MyPartitioner的實作：

針對每個partition進行整合操作：

在整合每個partition之前，我們先看下我們自定義的MyPartitioner是否在正常工作，可以列印下結果：

運作如下：

其中第一列代表每個partition的id，第二列是資料，發現其資料确實是按照預期進行處理的；接着可以針對每個partition進行資料整合：

在整合之前先執行一個map操作，把資料變成（(fileNameFirstChar, fileNameFirstChar.toInt - predictId), 1），其中fileNameFirstChar代表檔案的第一個字元，其實也就是檔案的所屬實際類别，後面的fileNameFirstChar.toInt-predictId 其實就是判斷預測的結果是否對了，這個值的衆數就是預測對的；最後一個值代碼前面的這個鍵值對出現的次數，其實就是統計屬于某個類别的實際檔案個數以及預測對的檔案個數，分别對應上面的total和total_right變量；輸出結果為：

(4,6,3)

(1,6,4)

(2,6,4)

發現其列印的結果是正确的，第一列代表檔案名開頭，第二個代表屬于這個檔案的個數，第三列代表預測正确的個數

這裡需要注意的是，這裡因為文本的實際類别和檔案名是一緻的，是以才可以這樣處理，如果實際資料的話，那麼mapPartitions函數需要更改。

針對資料結果進行統計：

最後隻需要進行簡單的計算即可：

輸出結果為：

實驗

設定不同的numFeature，比如使用200和2000，其對比結果為：

是以設定numFeatures值越大，其準确率也越高，不過計算也比較複雜。

總結
HanLP的使用相對比較簡單，這裡隻使用了分詞及停用詞，感謝開源；
Spark裡面的TF-IDF以及Word2Vector使用比較簡單，不過使用這個需要先分詞；
這裡是在IDEA裡面運作的，如果使用Spark-submit的送出方式，那麼需要把hanpl的jar包加入，這個有待驗證；

文章來源于fansy1990的部落格

Spark應用HanLP對中文語料進行文本挖掘--聚類

Scala調用HanLP進行分詞和Java的是一樣的，同時，因為這裡有些詞語格式不正常，是以把這些特殊的詞語添加到自定義詞典中，其示例如下：

繼續閱讀

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

hdu7108哈希