天天看點

我們文本分析了賈躍亭2017年全部公開信,發現他近期喜歡用“責任”“緻歉”

<b>當賈躍亭發聲時,他在說些什麼?他說的話網民聽進去了嗎?</b>

2018年工作日第一天,賈躍亭憑借一封對《北京證監局責令賈躍亭回國履責通告》的回應函再次占據了各大科技、商業網站的頭條。在回應函中,他提到美國FF公司融資已經取得了重大進展,并表示,“針對債務問題,我會盡責到底”。

近半年,在樂視危機下,賈躍亭頻頻發聲,而“債務”“責任”這些詞似乎不絕入耳。盡管感官如此,文摘菌還是想用文本分析統計一下,在2016-2017年,賈躍亭的多次發言中,到底他最愛說哪些詞,以及公衆對他的看法有到底如何。

作者統計了2016-2017年賈躍亭公開釋出的公開緻辭,總共7次(次數太少我們就不用爬蟲直接手動找了),包括新品釋出、公司緻辭和緻使用者信等,共15k字左右;同時,我們還搜集了全網“賈躍亭”相關輿情百萬餘條超過2個G的資料,以期了解公衆對其看法。

簡而言之,我們想知道,2017年發了這麼多公開信的賈躍亭,他說的話網民們聽進去了嗎?

當然,整個分析過程本身也頗有趣,背景回複“賈躍亭”擷取本次文本分析的所有資料和代碼包喲~

關鍵詞雲圖:當賈躍亭發聲時,他在說些什麼?

首先,文摘菌想看看,在這兩年中,賈躍亭在公開發言中最喜歡使用的詞語是什麼。

盡管賈躍亭的公開信字數略少,從文本分析中,文摘菌還是得出了一些有趣的資訊。

文本分析小貼士:對于關鍵詞提取,詞頻統計是最常用的方法,而其文摘菌沒有采取詞頻統計的方法,因為詞頻統計的邏輯是:一個詞在文章中出現的次數越多,它就越重要。因而,筆者采用的是TF-IDF(term frequency–inverse document frequency)的關鍵詞提取方法:它用以評估一字/詞對于一個檔案集或一個語料庫中的其中一份檔案的重要程度,字/詞的重要性會随着它在檔案中出現的次數成正比增加,但同時會随着它在語料庫中出現的頻率成反比下降。

由此可見,在提取某段文本的關鍵資訊時,關鍵詞提取較詞頻統計更為可取,能提取出對某段文本具有重要意義的關鍵詞。

作者利用jieba從語料中抽取出關鍵詞,并選取TOP500關鍵詞來繪制關鍵詞雲圖。

其中排名前十的詞語分别是:樂視、生态、硬體、我們、網際網路、上市公司、使用者、戰略、實作、價值。

我們文本分析了賈躍亭2017年全部公開信,發現他近期喜歡用“責任”“緻歉”

詞彙分散圖:使用者、變革少了,責任和債務來了

接下來,文摘菌想要了解賈躍亭在近兩年釋出的公開信中,有哪些詞彙随時間變化,出現頻率有所改變。

專(zhuang)業(bi)一點說,就是某些關鍵詞彙基于時間的數量分布和他們的位置資訊(the location of a word in the text),利用Lexical dispersion plot(詞彙分散圖)進行分析,可以揭示某個詞彙在一段文本中的分布情況(Produce a plot showing the distribution of the words through the text)。

文本分析小貼士:文摘菌先将待分析的文本(賈躍亭的公開發言)按時間順序進行排列,分詞後再進行Lexical Dispersion Plot分析。是以,文本字數的累積增長方向與時間正向推移的方向一緻。圖中縱軸表示詞彙,橫軸是文本字數,是累加的;藍色豎線表示該詞彙在文本中被提及一次,對應橫軸能看到它所處的位置資訊,空白則表示無提及。藍色豎線的密集程度及其位置代表了該詞彙在某一階段的提及頻次和所在年月。

從上面的關鍵詞和主題詞中,文摘菌挑揀出“樂視”“資金”“變革”“生态”“布局”“硬體”“使用者”“承諾”“責任”“質疑”“債務”“歉意”這10個關鍵詞彙進行分析,結果如下:

我們文本分析了賈躍亭2017年全部公開信,發現他近期喜歡用“責任”“緻歉”

從分析結果可以看出,【樂視】【生态】作為品牌詞彙,在賈躍亭2016年到2018年的公開信中頻頻出場。在2017年底最近一次公開信中,【樂視】【生态】依然是關鍵詞之一。

而【硬體】【使用者】【變革】這些偏“營銷“的詞語,在2016年,不管是新品釋出還是公司緻辭,都曾長期成為賈躍亭公開信的”愛詞“。而最近,盡管依然有所提及,但出現頻率非常之低。

相反,在最近一兩次發言中,首次出現了【歉意】【債務】【責任】這樣的字眼。

從打“營銷”牌到“情懷”牌,個中緣由,文摘菌在此不做過多評論,各位客官可自行體會。

賈躍亭的話,網民們聽進去了嗎?

賈躍亭說了什麼不重要,關鍵是大家有沒有聽進去。

要回答這個問題,文摘菌統計了用戶端、微網誌、論壇、網頁和微信公衆号上與“賈躍亭”相關的所有資訊,并進行了分析,生成了關鍵詞雲如下:

我們文本分析了賈躍亭2017年全部公開信,發現他近期喜歡用“責任”“緻歉”

資料統計工具:新浪微輿情 資料統計時間:2017年1月1日-2017年12月31日

分析中可以看出,在與賈躍亭相關的全部資訊中, 被提及頻次最高的詞語分别為“破産”、“公告”和“危機”。而“指責”“痛苦”“牛逼”“野蠻”“違約”等詞也充斥着全網。

此外,與賈躍亭相關度上來看,“樂視”“樂視網”“汽車”關系最為密切,其次,“宋洪斌”“資産”等詞也與其關系很近。

我們文本分析了賈躍亭2017年全部公開信,發現他近期喜歡用“責任”“緻歉”

資料統計工具:新浪微輿情  資料統計時間:2017年1月1日-2017年12月31日

當賈躍亭說“緻歉”“責任”時,我們想到了什麼?

為了搞清楚網民對賈躍亭近段時間表現的看法,文摘菌特意利用新浪微輿情下載下傳了全網輿情資料(包括微網誌、微信、論壇、用戶端、政務、報刊部落格、外媒等資訊釋出管道),鑒于資料量太大,我們這裡隻分析2017.12.01-2018.01.03期間的全網資料,希望從這些資料中,看看賈躍亭自己在最近一次公開信中的描述,和網絡上對他的輿論到底有何差異。

下載下傳後的資料經過分詞和轉碼(由ANSI轉為UTF-8格式,便于後續的詞向量模型訓練),文本大小總計1.2GB。

然後利用gensim下的word2vec進行詞向量訓練,結果如下:

我們文本分析了賈躍亭2017年全部公開信,發現他近期喜歡用“責任”“緻歉”

經過詞向量訓練處理後,可利用cosine餘弦對詞彙之間的關系進行測算,文摘菌選取了“賈躍亭+責任+歉意”作為檢索條件,即“當讨論‘賈躍亭+責任+歉意’時,我們想到了什麼”,結果展示如下:

我們文本分析了賈躍亭2017年全部公開信,發現他近期喜歡用“責任”“緻歉”

從上面的TOP50關鍵詞中,“跑路”、“鬼話”、“套現”、“假藥(諧音“賈躍”)”、“有責任”等負面詞彙映入眼簾,賈躍亭的網際網路形象确實跌落谷底。

此外,“娛樂圈”、“金融詐騙”、“活該”等詞的出現,則主要歸因于20位明星投資樂視,包括張藝謀、郭敬明、孫紅雷、黃曉明等紅極一時的影視娛樂界大腕,如今也都深陷這場資本遊戲,也讓這一話題聲量更加高漲。

接下來,文摘菌還将“賈躍亭”這個詞向量變成dense vector,進行了文本相似度計算。挑選出之前報道中出現頻率較高的詞彙,進行相似度計算。

根據計算結果,與”賈躍亭“相似度最高的詞語是“騙子”這個詞,其次依次為“反思”、”史玉柱“、”情懷“、“意氣風發”、喬布斯“。

我們文本分析了賈躍亭2017年全部公開信,發現他近期喜歡用“責任”“緻歉”

從去年年初的輿論危機到現今的資産大幅縮水、形象坍塌,一年多的時間,樂視和賈躍亭都沒有做出一個令人滿意的公關和答複。

想當年,憧憬“趕騰訊超阿裡賽百度”的賈布斯是何等的雄姿英發,豪言壯語,竭心盡力的想要建立一個宏大的網際網路軟硬體生态圈~然而,盤面鋪的太開,步子邁得太大,成長的太迅猛,跌落神壇的程序有了加速度也就不足為奇了,正應了《桃花扇》裡的那段話:“俺曾見,金陵玉樹莺聲曉,秦淮水榭花開早,誰知道容易冰消!眼看他起朱樓,眼看他宴賓客,眼看他樓塌了...”

原文釋出時間為:2018-01-04

本文作者:文摘菌

繼續閱讀