天天看點

有興趣了解文本挖掘?利用Minitab中的Python 內建開啟探索之旅

作者:MinitabUsersGroup
有興趣了解文本挖掘?利用Minitab中的Python 內建開啟探索之旅

現如今,内容無處不在,随時可供通路!尼爾森 (Nielsen) 的一項研究發現,美國成人每天用于閱讀、聆聽、觀看媒體以及與媒體互動的時間超過 11 小時。當下大家宅在家中,想必這個數值隻會更高。可用内容層出不窮,您或許會想知道:是否存在一種定量方式,讓我們能夠深入了解可用文本?

文本挖掘也稱為文本資料挖掘,指的是從文本撷取高品質資訊的過程,其終極目标是從文本變量中提取度量數值,供定量模組化之用。

文本挖掘為何重要?

文本挖掘可用來找出簡單的模式,也可用于複雜程度大得多的情感分析。可使用基本統計來進行簡單的分析,如,對某個詞被提及的次數進行計數,或者,計算出字母全大寫詞語的數量。

獲得彙總統計後,可以通過條形圖等可視化功能,以圖形方式顯示出現頻率最高的詞語;也可以通過文字雲,以富表現力的圖像顯示這些詞語。若需要感受人們對某款産品或某個過程的感覺和态度,這項功能尤為實用。

好消息!Minitab 最新版搭載全新 Python 內建,可供您充分利用文本挖掘!

讓文本變得栩栩如生:探索葡萄酒評論和逆向檔案頻率

為友善說明,我們用一個簡單的例子,分析對某葡萄酒的 5 個不同評論。通過 Minitab 調用 Python 來執行分析,您就可以拿到一份非常簡單易懂的彙總統計表格,如下所示:

有興趣了解文本挖掘?利用Minitab中的Python 內建開啟探索之旅

如您所看到的,在 5 個評論中,詞語“葡萄酒 (wine)”出現了 3 次,詞語“喜愛 (love)”出現了 2 次,而其他詞語均隻出現 1 次。Minitab 還會提供每個詞語的逆向檔案頻率 (IDF),其計算方法如下:

IDF = ln (N/DF)

其中,N = 觀測值數量(在這個案例中,總數 5 個評論中的全部評論),DF = 出現特定詞語的檔案數量。

從數學角度講,若一個詞語出現于所有觀測值中,則其 IDF = 0。是以,IDF 最低的詞語出現次數最多,而隻出現在一個觀測值中的詞語的 IDF 最高。

在這個案例中,可以清晰看出,“葡萄酒 (wine)”的 IDF 最低,因為其出現次數最多。基于這些彙總統計,我們可以推斷,喜歡葡萄酒的人比不喜歡的居多,而且在總體上,評論是正面的。

我們中有很多人偏好視覺資料,可以用文字雲來檢視此樣本分析:

有興趣了解文本挖掘?利用Minitab中的Python 內建開啟探索之旅

如您所見,“葡萄酒 (wine)”出現次數做多,是以字型最大;看一眼文字雲即可看出總體評論呈正面。

使用 Minitab 中的全新 Python 連接配接來實施文本挖掘。此前從未接觸過 Python 也無妨,我們為您提供了 Python 安裝和使用說明。成功安裝擴充項後,便可以輕松在 Minitab 中持續執行标準文本挖掘任務。

希望進一步了解可通過 Minitab 中的 Python 實作的功能?了解更進階的功能,例如,情感分析、詞袋模型以及潛在語義分析請聯系我們!

有興趣了解文本挖掘?利用Minitab中的Python 內建開啟探索之旅
有興趣了解文本挖掘?利用Minitab中的Python 內建開啟探索之旅