天天看點

Twitch表情中的情緒分析

作者 | Martin Anderson

譯者 | 馬可薇

策劃 | 淩敏

近年來,人們在社交媒體平台上 越來越多地使用emoji、表情符号、顔文字、GIF 以及各種非文字的表達方式,這讓資料科學家們在研究全球範圍的社會學格局時愈發艱難,但從人們公開的發言中還是能找到全球化社會學的一些趨勢的。

盡管在過去的十年裡,自然語言處理(NLP)是個非常強大的情緒分析工具,但它不僅跟不上快速更新發展、跨語言的網絡詞彙和縮寫,面對臉書和推特等社交網站上以圖為主的文章也束手無策。

因為這類研究真正能依靠的超大規模資源隻有這些為數不多的大型社交媒體平台,是以人工智能必須要做到與時俱進。

今年七月,一篇論文提出了一種新方法,該方法利用包含了 30000 條推文的資料庫,根據使用者發到社交網絡博文下的“GIF 反應”(見下圖),對博文引發的情緒進行歸類和預測。該論文發現,這類以圖像為主的反應從各方面來說都很容易衡量,因為大多數都不會包含情緒分析中的弱勢項:諷刺。

Twitch表情中的情緒分析

研究學者們将人們使用的動态表情 GIF 稱作“還原名額”,并在他們釋出于 2021 的論文中分析其用法。

2021 年上半年,波士頓大學帶領研究團隊通過訓練 機器學習模型 預測推特上可能會流行的梗圖。2021 年八月,英國學者們通過研究社交媒體中人們使用表情符号(指圖像形式的數字、字母和标點)或 emoji(指圖像形式的人臉、物品和符号)的趨勢對比,整合了一個包含七種語言的大型推特情緒資料集。

Twitch 顔文字

現在,美國的研究者們已經開發出了一種機器學習訓練方法,可以更好地了解、歸類并測量 Twitch(國外一遊戲直播平台)上不斷發展變化的顔文字(emotes)僞詞彙。

顔文字 emotes 是指 Twitch 上用來表達情緒、情感或小衆笑話的新造詞。因為其定義便是新造表情,是以對于機器學習系統來說,最難的并不是對源源不斷新産生的新表情進行歸類,總結的速度恐怕還趕不上他們過氣的速度;我們要讓機器能更好地了解這些表情背後的結構,并開發系統将這些顔表情識别為“臨時”的單詞或組合短語,而其所代表的情感則完全需要依靠上下文情景來判斷。

Twitch表情中的情緒分析

與快樂蛙相類似的顔文字,簡單更改字尾其含義便完全不同了。

上圖來自舊金山的一家社交媒體分析公司中的三位研究者釋出的論文,《快樂蛙:推斷 Twitch 中新造詞背後的情緒含義 (https://arxiv.org/pdf/2108.08411.pdf)》。

爆紅後的轉型

盡管這些表情新鮮一時又多數短命,但 Twitch 經常會把舊表情素材挖出來回收利用,讓飽經訓練的情緒分析架構判斷錯誤。通過追溯表情在演變過程中含義的變化,經常會發現他們現在所代表的情感或意圖與最初創造時完全是天翻地覆。

舉例來說,研究者們注意到由于極右翼對快樂蛙梗圖的濫用,這個表情幾乎完全失去了它在 Twitch 上最初流行時代表的政治含義。

快樂蛙的形象和它那句經典的“真不錯兄弟(Feels Good Man)”,最初是出現在 2005 年美國插畫家 Matt Furie 的一本漫畫中,随後在 2010 年左右變成了極右翼的代表梗圖。Vox 曾在 2017 年發文稱,雖然 Furie 自稱與其撇清關系,但這種右翼挪用後所代表的含義還是流傳了下來,但這篇論文背後的舊金山研究人員卻并不認同:

在 2010 年早些時候,Furie 創作的卡通青蛙形象被 4chan(外網匿名論壇)等各種線上論壇中的右翼用作宣傳。而從那時起,Furie 一直在努力赢回青蛙 Pepe 本身的意義,而在 Twitch 上,大量非仇恨、積極的青蛙表情成為了主流,讓快樂蛙和它對應的悲傷蛙用法更加傾向表情的字面意義。

後續麻煩

這種梗圖的常見表達含義在爆紅後又轉換的情況經常會讓 NLP 研究項目進展受挫。畢竟這些表情已經被打上了“仇恨”或者“民族主義 (US)”這類标簽,并且打包扔進了長期開源倉庫裡。後續使用這些資料的 NLP 研究項目可能并不會檢查資料的正确性,有的會是因為沒有資料審計的手段,有的則可能是壓根沒意識到審計的需要。

這種過期标簽的後果很明顯,如果在 2017 年使用 Twitch 表情資料集來訓練一個“政治分類”的算法,那麼歸功于悲傷蛙表情的大量使用,我們将觀測到 Twitch 上有非常明顯的極右翼傾向。當然,也許 Twitch 确實充滿了極右翼的主播們,但你并不能靠青蛙頭來驗證這點。

悲傷蛙梗圖的政治意義似乎被 Twitch 上 1.4 億的使用者(其中 41% 的使用者未滿 24 歲不客氣地抛棄了。他們不約而同地從盜圖的政治家手中非常效率地将青蛙 Pepe 奪了回來,重新用自己的方式将其定義。

方法和資料

研究者們發現帶标簽的 Twitch 顔文字資料集“幾乎不存在”,雖然先前有研究稱他們共使用了八百萬的 Twitch 表情,而其中 40 萬都是在同一周内造出來的。

2017 年的一份預測 Twitch 上流行顔文字的研究],在将預測範圍限制在了前 30 後,仍然隻有 0.39 的得分。

為應對這一難題,舊金山的研究者對舊資料使用了新方法,将訓練集和測試集的比例分成了 80/20,并采用了樸素貝葉斯,随機森林(RF)、支援向量(SVM,用線性核),以及邏輯回歸(Logistic Regression),這些之前并未在 Twitch 資料中使用過的“傳統”機器學習算法。

這種算法的性能和先前研究的基準線相比高出了 63.8%,而研究人員借此開發的 LOOVE(“從詞彙中學習情緒”的英文縮寫)架構做到了新詞彙的識别,并将這些全新的定義添加到現有的模型中。

Twitch表情中的情緒分析

研究人員開發的 LOOVE(Learning Out Of Vocabulary Emotions)架構結構

LOOVE 在無監督訓練嵌入詞上大展身手,通過定期再訓練和微調避免了對标記資料集的需求。考慮到表情的數量和其演化的速度,實時更新标記資料集非常的不現實。

在項目中,研究者們用一個未标記的 Twitch 資料集訓練一個顔文字的“僞字典”,在訓練過程中,模型生成了 444,714 個單詞、顔文字和 emoji 的嵌入。

此外,他們在 VADER 詞典中新增了 emoji 和表情符号詞彙,除了之前提到的 EC 資料集之外,他們還利用來自推特、爛番茄和 YELP(外網一美食點評網站)采樣這三個公開可用的資料集進行三元感情的分類。

由于項目中使用了不止一種方法和資料集,其結果也各不相同,但可以肯定的是,項目中表現最優的基準線比先前研究要高出 7.36 個百分點。

研究者認為,該項目的後續價值是在于 LOOVE 架構的繼續開發,借助 K 最鄰近法(KNN)和 word-to-vector(W2V)的嵌入訓練 Twitch 上超過 3.31 億條的聊天資料。

論文作者總結道:架構背後的功能驅動是可用于預測未知表情情感的顔文字的僞詞典。利用這個顔文字的僞詞典,我們建立了一個包含 22,507 個表情的情緒表,可以說是第一個如此規模的顔文字解讀案例。

https://www.unite.ai/understanding-twitch-emotes-in-sentiment-analysis/

繼續閱讀