有興趣了解文本挖掘？利用Minitab中的Python 內建開啟探索之旅

作者：MinitabUsersGroup 2022-03-11 10:09:00

現如今，内容無處不在，随時可供通路！尼爾森 (Nielsen) 的一項研究發現，美國成人每天用于閱讀、聆聽、觀看媒體以及與媒體互動的時間超過 11 小時。當下大家宅在家中，想必這個數值隻會更高。可用内容層出不窮，您或許會想知道：是否存在一種定量方式，讓我們能夠深入了解可用文本？

文本挖掘也稱為文本資料挖掘，指的是從文本撷取高品質資訊的過程，其終極目标是從文本變量中提取度量數值，供定量模組化之用。

文本挖掘為何重要？

文本挖掘可用來找出簡單的模式，也可用于複雜程度大得多的情感分析。可使用基本統計來進行簡單的分析，如，對某個詞被提及的次數進行計數，或者，計算出字母全大寫詞語的數量。

獲得彙總統計後，可以通過條形圖等可視化功能，以圖形方式顯示出現頻率最高的詞語；也可以通過文字雲，以富表現力的圖像顯示這些詞語。若需要感受人們對某款産品或某個過程的感覺和态度，這項功能尤為實用。

好消息！Minitab 最新版搭載全新 Python 內建，可供您充分利用文本挖掘！

讓文本變得栩栩如生：探索葡萄酒評論和逆向檔案頻率

為友善說明，我們用一個簡單的例子，分析對某葡萄酒的 5 個不同評論。通過 Minitab 調用 Python 來執行分析，您就可以拿到一份非常簡單易懂的彙總統計表格，如下所示：

如您所看到的，在 5 個評論中，詞語“葡萄酒 (wine)”出現了 3 次，詞語“喜愛 (love)”出現了 2 次，而其他詞語均隻出現 1 次。Minitab 還會提供每個詞語的逆向檔案頻率 (IDF)，其計算方法如下：

IDF = ln (N/DF)

其中，N = 觀測值數量（在這個案例中，總數 5 個評論中的全部評論），DF = 出現特定詞語的檔案數量。

從數學角度講，若一個詞語出現于所有觀測值中，則其 IDF = 0。是以，IDF 最低的詞語出現次數最多，而隻出現在一個觀測值中的詞語的 IDF 最高。

在這個案例中，可以清晰看出，“葡萄酒 (wine)”的 IDF 最低，因為其出現次數最多。基于這些彙總統計，我們可以推斷，喜歡葡萄酒的人比不喜歡的居多，而且在總體上，評論是正面的。

我們中有很多人偏好視覺資料，可以用文字雲來檢視此樣本分析：

如您所見，“葡萄酒 (wine)”出現次數做多，是以字型最大；看一眼文字雲即可看出總體評論呈正面。

使用 Minitab 中的全新 Python 連接配接來實施文本挖掘。此前從未接觸過 Python 也無妨，我們為您提供了 Python 安裝和使用說明。成功安裝擴充項後，便可以輕松在 Minitab 中持續執行标準文本挖掘任務。

希望進一步了解可通過 Minitab 中的 Python 實作的功能？了解更進階的功能，例如，情感分析、詞袋模型以及潛在語義分析請聯系我們！

繼續閱讀