天天看點

《駕馭大資料》一3.2 多個行業:文本資料的價值

本節書摘來異步社群《駕馭大資料》一書中的第3章,第3.2節,作者: 【美】bill franks 譯者: 黃海 , 車皓陽 , 王悅 , 等 責編: 楊海玲,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

駕馭大資料

文本是最大的也是最常見的大資料源之一。想想我們周圍有多少文本資訊的存在,電子郵件、短信、微網誌、社交媒體網站的文章、即時通信、實時會議以及可以轉換成文本的錄音資訊。文本資料是現在結構化程度最低的,也是最大的大資料源。幸運的是,我們在駕馭文本資料、利用文本資料來更好地做商業決策方面已經做了很多工作。

文本分析一般會從解析文本開始,然後将各種單詞、短語以及包含文本的部分賦予語義。我們可以通過簡單的詞頻統計,或更複雜的操作來進行文本分析。自然語言進行中已經有很多諸如此類的分析了,這裡我們就不再贅述。文本挖掘工具是主流分析套件中一個不可或缺的組成部分。此外,我們還能找到許多獨立的文本挖掘工具包。其中一些文本分析工具使用基于規則的方法,使用者需要調整軟體才能找到自己感興趣的模式。另一些工具則使用機器學習和其他算法自動地發現資料模式。每種方法都各有利弊,其相關論述已經超出了本書的範圍。我們關心的是如何使用生成的結果,而不是使用工具産生結果的過程。

做完文本解析和分類以後,我們就可以分析這些過程所産生的結果了。文本挖掘過程的輸出結果通常是其他分析流程的輸入。例如,如果能夠分析出客戶使用電子郵件的情感,就能利用一個變量将客戶的情感标記為正面情感或負面情感。這種标記本身是一種結構化的資料,可以作為分析流程的輸入。使用非結構化的文本建立結構化的資料,這個過程通常稱為資訊提取。

另一個例子是,假定我們能夠在客戶與公司往來的郵件中識别出他們對公司某些産品的評價,我們就能利用一系列變量來辨別客戶的産品評價。這些變量本身也是結構化的度量名額,可以用來做分析。上述這些例子解釋了如何捕獲非結構化資料片段,并從中提取出相關的結構化資料。

從非結構化文本中提取結構資料 文本分析的例子很好地說明了該過程:擷取非結構化資料,然後處理該資料,最後建立出可以用于分析和報表過程的結構化資料。駕馭大資料的一個重要部分是,利用這種創造性的方式将非結構化資料和半結構化資料變成可用于分析的資料。

解釋文本資料實際上是相當困難的。強調的詞彙和語境不同,同一個單詞表達出來的意思就不同。面對純文字,我們根本不知道重點在哪裡,也不知道整個語境。這說明我們得事先進行一些假設,我們會在第6章中更詳細地讨論這個問題。

文本分析既是一門藝術,也是一門科學,總會存在一定的不确定性。文本分析往往會有分類錯誤和含義模糊的問題。沒錯,如果我們在文本集合中發現了更好的決策支援模式,那就應該使用它。文本分析的目标是改進你的決策,但并不是令你的決策變得完美。文本資料可以有效地提升決策效果,它能提供比沒有它時更好的結果,即使資料有噪音或含義模糊時,這一點也成立。

使用文本資料

一種目前很流行的文本分析應用是所謂的情感分析。情感分析是從大量人群中挖掘出總體觀點,并提供市場對某個公司的評論、看法和感受等相關資訊。情感分析通常使用社會化媒體網站的資料。以下是情感分析的幾個例子。

公司或産品的口碑怎麼樣?

大家正在讨論的是公司的哪些活動?

大家對公司、産品和服務的評價是好是壞?

如前所述,文本分析的難點在于詞彙和語境是相關的。我們要考慮到這個問題,但大量的評價會讓客戶情感的傾向變得明确。如果我們可以解讀出人們在社交媒體上所說内容、與客服互動資訊的趨勢,這會對規劃下一步的工作有很大的價值。

如果公司可以掌握每一個客戶的情感資訊,就能了解客戶的意圖和态度。與使用網絡資料推斷客戶意圖的方法類似,了解客戶對某種産品的總體情感是正面情感還是負面情感也是很有價值的資訊。如果這名客戶此時還沒有購買該産品,那價值就更大了。情感分析提供的資訊可以讓我們知道要說服這名客戶購買該産品的難易程度。

文本資料的另一個用途是模式識别。我們對客戶的投訴、維修記錄和其他的評價進行排序,期望在問題變大之前,能夠更快地識别和修正問題。産品首次釋出,然後開始出現投訴,文本分析可以識别出客戶在哪些方面存在問題。我們甚至可以做到在客服電話接二連三打進來之前,先把問題識别出來。這樣我們就能更快地、更積極地做出響應。公司可以及時地做出反應,解決産品未來發行版本中同樣的問題,也能主動與客戶進行接觸,緩解他們當下遇到困難時的焦躁情緒。

欺詐檢測也是文本資料的重要應用之一。在健康險或傷殘保險的投訴事件中,使用文本分析技術可以解析出客戶的評論和理由。文本分析可以将欺詐模式識别出來,标記出風險的高低。面對高風險的投訴,需要更仔細地檢查。另一方面,投訴在某種程度上還能自動地執行。如果系統發現了投訴模式、詞彙和短語沒有問題,就可以認定這些投訴是低風險的,并可以加速處理,同時将更多的資源投入高風險的投訴中。

法律事務也會從文本分析中受益。按照慣例,任何法律案件在上訴前都會索取相應的電子郵件和其他通信曆史記錄。這些通信文本會被批量地檢查,識别出與本案相關的那些語句。例如,哪些電子郵件中有隐藏的内幕消息?哪些人在和别人交流時說的是假話?威脅背後的實質是什麼?

在法律案件中應用文本分析的做法稱為電子偵察。所有預先進行的分析将幫助起訴獲得成功。不使用文本分析,僅通過人工的方式将無法浏覽所有的所需文檔。即使我們可以做到人工浏覽那些文檔,但因為任務本身過于單調枯燥,我們很可能會漏掉其中的一些關鍵資訊。

文本資料可能會對所有的行業都産生影響。它可能是如今使用最廣泛的一類大資料。對企業來講,掌握如何收集、解析和分析文本是很重要的。文本是我們必須駕馭的一種大資料源。

繼續閱讀