天天看點

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

雷鋒網(公衆号:雷鋒網)按:本文原作者maixent chenebaux,選文&校對aileen,翻譯姜範波。文章由大資料文摘|bigdatadigest授權雷鋒網釋出,如需轉載請聯系授權。

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

當地時間10月9日,美國總統大選兩名候選人第二場公開辯論将登場,特朗普和他的對手希拉裡·克林頓将在聖路易華盛頓大學進行第2場大選辯論,時長90分鐘。

不管是演講或辯論,兩位候選人都有自己獨特的“演講範兒”,使用語義分析和自然語言處理分析兩人的演講風格是件有趣的事情。本文通過自然語言處理分析兩人的總統候選人提名演講,發現了他們在用詞和演講節奏上的不同特點。

資料科學可以應用到很多領域。從圖像處理到人工智能,無所不能。其中之語義分析(semantic analysis),在社交媒體監測中非常有用。本文聚焦于政治,而非推特或臉書的評論分析。

今年7月21日,唐納德•特朗普,在俄亥俄州的克利夫蘭舉行的共和黨全國代表大會的最後一天接受了共和黨總統候選人提名。一周之後的28日,希拉裡•克林頓在費城接受了民主黨總統候選人提名。

在家人和成千上萬粉絲的支援下,他們發表了各自的提名演講。本文對此進行了分析,以期更好地了解這份政治通訊背後隐藏的深意。本文集中在三個特征上:詞彙、風格和節奏。

我們發現特朗普的演講大概13%的詞彙是獨特的(全文7460個單詞中有965個不同的主幹詞)。平均每個詞重複7.7次。而希拉裡有17%的獨特詞,每個詞平均重複約6次。差別很明顯:特朗普的演講之80%隻需要480個詞,而希拉裡需要665個詞!多出來38%,意味着我們開始得到一些結果了。

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

構成候選人演講稿80%的詞彙量

演講的效率部分依賴于演講者的風格。本文試圖找出兩名候選人最心愛的詞。尋找“特朗普範兒”或者“希拉裡範兒”的詞,即找出一個候選人中使用最頻繁而在其競争對手那使用最少的詞。比如,“really”這個詞,在特朗普的演講中出現了15次,在希拉裡的演講中僅出現1次。計算的方法之一是計算每個詞的“比值比(odds ratio)”。公式如下:

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

分子是某個詞在特朗普詞彙表中出現的機率,分母為同樣的詞在希拉裡文中出現的機率。取對數使得我們可以高效的進行排序:當二者旗鼓相當時,對數值為0。否則要麼為負(希拉裡範兒)或為正(特朗普範兒)。結果如下:

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

 幾乎僅見于唐納德•特朗普的詞

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

 幾乎僅見于希拉裡•克林頓的詞

我們注意到的第一件事是,特朗普喜歡用短而常見的詞,反複使用:真的(really),很好(nice),非常好(great),問題(problem)。還有一點,我們可以感覺到這位共和黨候選人的某種成見:墨西哥,中國,伊朗。總體而言,特朗普關注的似乎更偏向于國際問題。大部分他所提及的外務,旨在煽動恐懼,尋找替罪羊。

而希拉裡一方,詞彙的範圍更廣。“希拉裡範兒”的詞傾向于較為罕見的詞。希拉裡•克林頓提到“美國”的次數大大多于特朗普:27:5。“希拉裡範兒”的詞表提示,希拉裡的演講更加着眼于國内事物。她典型的詞包括:一起(together),運動(campaign)和努力(hard)。唐納德•特朗普的名字也多次出現在她的演講中。

認真的讀者會發現,“特朗普”這個詞并沒有出現在“希拉裡範兒”的詞表中,這是因為特朗普在他的演講中,多次提到他自己的名字(10次),是以把比值比拉下來了。作為對比,希拉裡的名字隻提到了2次:一次在希拉裡自己的演講中(提到她的丈夫比爾•克林頓),一次被特朗普提到。并且,“希拉裡範兒”的詞“想要(wants)”出現在批評她的對手時(“他想要分裂我們…”,“他想要我們懼怕未來,懼怕彼此”)顯然,希拉裡談論了特朗普,而特朗普談論的是…他自己!

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

所有人都在談論特朗普

我們也可以來看看雙方都在用的詞。它們代表了二者的共識。不出意料,它們是“工作(jobs)”、“國家(country)”、“思考(thinking)”。他們都說了很多次“謝謝”,但方式不同:希拉裡特别感謝了一些人,而特朗普主要是在觀衆鼓掌的時候緻謝。

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”
用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

由于背景的不同,兩位候選人都有自己的節奏。評價語言的内在節奏,一個好的開端是:把演講分割為很多句子,句子再分割成單詞。我們發現,特朗普的演講較長:有625個句子和7460個單詞。而希拉裡隻用到405個句子和6088個單詞。就是說,特朗普比他的對手,多用了54%的句子,長了23%。

特朗普的平均句子長度是12個單詞,希拉裡的句子稍長,平均每句15個詞。大部分特朗普的句子都很短:演講21%由5-6個單子的短句組成。希拉裡的句子長度更均勻,12個單詞的是最常見的。

用自然語言處理看希拉裡、特朗普演講,各自“什麼範兒”

奧巴馬的句子長度是特朗普和希拉裡之和

我們看到了特朗普和希拉裡的一個明顯差別:特朗普演講簡單明快,而希拉裡更加多樣、冷靜。但是等等!她并不是非同尋常:奧巴馬在他的第一次提名演講中,平均每句話用到25.7個單詞,幾乎是希拉裡和特朗普之和。奧巴馬的重複用詞也比希拉裡少了24%,比特朗普少了42%。我想,這說明,雖然希拉裡的節奏要慢一點兒,句子結構要複雜點兒,她的演講風格與對手仍然非常接近。

自然語言處理不是一門精确的科學。隻能給我們一些線索和元件,據此來了解演講。語料庫也很短,需要更多的分析來提取更精确的特征。但是從本文的分析,我們發現了什麼?

特朗普談論所有的事情是“真的”,“很好”,“非常好”,而希拉裡談論的是如何“為美國”“一起”“工作”。

特朗普談論的是他自己,希拉裡談論的是特朗普。雖然希拉裡用到了更大的詞彙表,更複雜的句子結構,看起來她或多或少采用了特朗普的說話方式。

奧巴馬的提名演講(兩次均是)采用了更大的詞彙表,複雜得多的句子結構,表明特朗普颠覆性地簡化了這樣國家級的演講。

本文作者:陳圳

繼續閱讀