天天看點

技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

「靈犬」是一款檢測内容健康程度的小工具,旨在幫助人們打擊低俗低質内容,淨化網絡空間。新一代「靈犬」首次引入了自然語言處理領域裡最近熱門的 BERT

模型,在多達 1.2T 的資料訓練之後,靈犬的内容識别準确率提升到了 91%。

人工智能真的可以解決内容稽核了?在今日頭條總部,位元組跳動人工智能實驗室總監王長虎和我們進行了一番交流。目前看來,技術可以解決的問題很多,但缺點也不少。

技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

技術稽核之難

在移動網際網路成為主流的今天,科技公司需要處理的資料正在呈幾何級數增長,很多企業都在建立自己的技術稽核機制。去年 9 月,Facebook 釋出并部署了名為「羅塞塔」的系統來解決内容稽核問題,羅塞塔每天可以實時從超過 10 億張圖像和視訊幀中提取文本,并能識别并稽核多種語言的文字内容。

在國内,知乎去年推出的社群管理大腦「瓦力」,希望通過多種算法處理社群内不友善、答非所問、低品質、違法違規等方面的内容。據介紹,這一系統每天可以清理約 5000 條新産生的低品質内容。

盡管各家公司都在使用自己的算法技術應對違規内容,但面對語言和圖檔的無限可能性,人工智能還是經常會出錯。而另一方面,内容稽核就像無人駕駛汽車一樣,漏判造成的後果會很嚴重。沒有足夠召回率的話,再優秀的算法也無法實用化。去年的美國獨立日期間,「獨立宣言」的選段曾被 Facebook 的算法判定為涉嫌種族歧視而遭删除。

技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

2016 年,Facebook 曾恢複一張被誤删除的越戰新聞照片。照片描述了美國在越南轟炸制造的「戰争恐怖」,畫面是一個被凝固汽油彈燒傷的越南女孩,赤身裸體在奔跑。這是機器稽核誤傷的著名案例。

那麼,文本、圖檔處理的技術難點在哪裡?讓我們先從讓技術如何學習語言說起。

語言了解:皇冠上的明珠

自然語言處理(NLP)的曆史幾乎跟計算機和人工智能的曆史一樣長。自計算機誕生起,就有了對人工智能的研究,而人工智能領域最早的研究就是機器翻譯及自然語言了解。這并不意味着今天的機器對于語言的了解能力有多高,事實上,我們距離真正的智能還有很長一段路要走。

計算機非常擅長使用結構化資料,例如電子表格和資料庫表。但是我們人類通常使用非結構化的文字互相交流,這對計算機來說不是一件好事。

技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

讓計算機了解「It」就是指代「London」,是非常困難的一件事——更不用說不帶髒字的罵人和陰陽怪氣的回複了。

為了讓機器了解語言,我們通常需要遵循一個流水線過程:首先把文本拆分成單獨的句子,進而把句子分成不同的單詞或标記,接下來,我們需要讓機器嘗試猜測每個标記的詞類:名詞,動詞,形容詞等等。經過詞形還原、識别停止詞、依賴解析等過程之後在命名實體識别(NER)過程中通過統計模型,使用上下文來猜測單詞代表的是哪種類型的名詞。

自然語言處理技術雖然已經讓計算機一定程度上能夠了解文字的含義,但大多數研究都是基于英文的。僅從 NLP 研究角度而言:中英文在詞性标注、句法分析等任務上頗有差異。主要展現在英語有明顯的屈折變化(單複數、時态等)而漢語缺少這些屈折變化。

讓 BERT 學會中文

對于文字内容稽核來說,算法必須能夠通過「拟合」過程知曉單詞的語義;另一方面,算法也必須具備泛化能力,在了解語義的基礎上,能夠舉一反三。

目前最常見的文本分類模型主要包括 Fasttext、TextCNN、TextRNN 及其各種變體。其中,fasttext 直接基于文本中 token 的平均嵌入進行分類,該方法雖然未考慮詞序,但簡單有效。TextCNN 基于卷積模組化文本的局部依賴關系 (local feature), 通過池化學習全局資訊。CNN 能夠在降維的同時捕捉到局部詞序關系。若要模組化長距離依賴關系,需依賴于多層的卷積和池化層,模型結構較複雜。TextRNN 基于 LSTM 或 GRU 模組化文本的序列模式, 能夠有效模組化文本的長距離依賴關系。

今日頭條「靈犬」背後的文本分類模型經曆了三次疊代,第一代靈犬的文本識别模型應用的是「詞向量」和「CNN(卷積神經網絡)」技術,訓練資料集包含 350 萬資料樣本,對随機樣本的預測準确率達到 79%。第二代靈犬,應用的是「LSTM(長短期記憶)」和「注意力機制」,訓練資料集包含 840 萬資料樣本,準确率提升至 85%。

每個新版本相對于舊版本,在技術和資料集層面都有了明顯的躍升。第三代靈犬已經用上了 BERT。

技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

「BERT」是目前最先進的自然語言處理技術,NLP 領域近年來重大進展的集大成者。這項技術在常見的閱讀了解、語義蘊含、問答、相關性等各項任務上曾經一次重新整理了 11 項業内最佳記錄,但也因為高達 3 億的參數量讓大多數開發者望而卻步。「BERT」提出了一種深層模型結構,使用「遮擋」方式同時利用上下文提高準确性,并通過無監督學習對天然超大規模語料模組化。由于自然語言具有天生的連貫性,經過大規模訓練的語言模型的預測能力,達到了前所未有的水準。

新版「靈犬」同時應用了「BERT」模型和半監督學習,并在此基礎上使用了專門的中文語料,在不犧牲效果的情況調整了模型結構,使得計算效率達到了實用水準。

今日頭條表示,相比之前的 LSTM+Attention 方案,BERT 方案下的内容識别模型機器延遲為 125ms,算力需求增加了 33 倍,準确率的提升則為 7.04%。

圖像識别:總有奇怪的事情發生

與文字不同,機器進行圖像識别的過程就像在盲文上進行閱讀,像素是一個個資訊點,最終要通過所有資訊點内容的集合做出一個最為合理的判斷。這種方法讓機器在特定的圖像視覺處理上已經可以超過人類。比如說在動植物物種的識别上,計算機就比我們更為「專業」。但在更多的情況下,内容檢測還是一個具有挑戰性的任務。

目前常見的圖像分類的基本思路是基于 ImageNet 預訓練分類模型 (e.g. ResNet、 Xception、 SENet 等),在進行結構和參數的調整;然後基于微調後的模型提取圖像 feature,作為特定任務分類模型的輸入進行圖像分類。這些基于卷積神經網絡的方法有着被「欺騙」的風險。

技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

上圖中的動物形象,自 1892 年首次出現在一本德國雜志上之後就一直讓人感到迷惑:有些人隻能看到一隻兔子,有些人隻能看到一隻鴨子。有人把這張圖檔輸入進谷歌機器圖像識别工具中,結果機器認為 78% 的機率是一隻鳥,68% 的機率是一隻鴨子。

供職于 BuzzFeed 的資料科學家 Max Woolf 随後設計了一個更複雜的實驗:他幹脆讓這張圖旋轉起來,想要看看機器會做何判斷。結果,谷歌 AI 最初認為這是一隻鴨子,鴨子嘴指向 9 點方向。随着鴨子嘴向上轉到 10 點方向,很快谷歌 AI 就認為畫裡面是兔子了,直到鴨子嘴轉到 2 點方向之後。此後一段時間,谷歌 AI 認為既不是鴨子也不是兔子。一直到 7 點方向,谷歌 AI 再次肯定是一隻鴨子。

有人認為,這或許是因為人類在判斷物體時對于空間的認識具有先驗性——用這樣的标注資料訓練出的模型,在不知不覺中也将空間和方向等因素考慮在内了。而且,不僅旋轉圖檔會讓機器迷惑,有時候就連不同的圖檔尺寸也會讓機器給出不同的判斷。

優化深度學習模型

對于圖檔内容稽核來說,難點包含三方面:資料不均衡、類内方差大和不可窮舉。低俗圖檔樣本占資料集内容的比例較低,經常導緻深度學習模型訓練效果不佳。此外,低俗圖檔的種類豐富、繁雜,構成低俗圖檔的特征千差萬别。

對此,「靈犬」運用的解決方案是優化深度學習。「我們分别在資料、模型、計算力等方面做了很多優化,」王長虎介紹道。「在資料層面上,靈犬已累積了上千萬級别的訓練集。而在模型層面上,靈犬針對許多困難樣本做了模型結構調優,嘗試解決多尺寸、多尺度、小目标等複雜問題。在計算力層面上,靈犬利用分布式訓練算法以及 GPU 訓練叢集,加速模型的訓練和調試。」

為應對使用者上傳不同比例的圖檔,今日頭條在圖像識别算法中設計了「多桶模型」,使得各種比例的圖檔都能有很好的識别效果。在模型進行預測時,算法會根據傳入的圖檔比例尋找比例最接近的「桶」,進而給出相應的預測結果。由于不同比例的桶對應的模型的參數是共享的,是以預測時間和單模型基本接近。而由于經過了對應模型的處理,算法也可以進一步提升準确率。

在以人為主的場景中,為解決人在圖檔中的面積占比變化較大的問題,工程師引入了特征金字塔結構,對不同尺度的物體,它能提高模型提取一緻性特征的能力。正常的網絡結構會對圖檔進行多次卷積,得到圖檔的特征圖,再對接全連接配接層進而得到圖檔的分類結果——但這種方法有一個缺點,如果測試集中人在圖檔中的占比和訓練集差距較大,就會導緻效果下降。在網絡中引入特征金字塔結構,将底層特征和上層特征融合,并在每層給出預測結果,可以同時利用底層特征的高分辨率和高層特征的高語義資訊。

技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

為應對在圖檔中出現小範圍問題區域的挑戰,今日頭條還設計了分割輔助分類網絡。該網絡結合了特征金字塔結構,訓練分為兩部分,分割部分每層的預測結果都會與标注區域計算損失,分類部分将預測出的區域與特征圖進行疊加,再進入分類器和分類标簽計算損失;預測時,特征金字塔結構會輸出預測區域,将該區域與特征圖疊加,再送入分類器即可得到分類結果。

雖然使用了優化過的算法,但一些技術難以搞定的問題,現階段還有賴于人工判斷:世界名畫中常常出現裸女形象,如果完全交由機器判斷,機器通過識别畫中人物的皮膚裸露面積,就會認為這幅畫是色情低俗的;而某些拍攝芭蕾舞的圖檔,以機器的視角來看,或許類似于裙底偷拍。

王長虎認為,針對低俗判斷問題的複雜性和不同判斷方式的局限性,一方面需要不斷進化技術模型,另一方面需要有效結合技術和人工判斷兩種方式。

「我們的模型還在不斷進化,除了靈犬反低俗系統,還有色情、低俗、标題黨、虛假資訊、低質等幾百種模型,」王長虎表示。「自 2012 年建立以來,今日頭條已建立起近萬人的專業稽核團隊來保證内容的安全。」

人工智能可以幫助我們大幅提升稽核效率和準确率,但在現階段甚至很長一段時間内,它仍無法完全代替人類進行所有判斷。因為機器還很難了解内容背後的深意,也不會在不同文化場景中做自由切換,或及時學會不斷變化的标準尺度。目前看來,在内容稽核上機器+人工的方法是最合理通行的做法。

繼續閱讀