天天看點

網絡直播被嚴查,機器如何幫助鑒别小黃圖?◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

網絡直播被嚴查,機器如何幫助鑒别小黃圖?◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

近日,文化部将19家不合規定的直播平台列入查處名單。 

作為新型的社互動動平台,網絡直播與傳統的視訊網站不同,當使用者上傳内容後,傳統的視訊網站會進行稽核,符合标準後才可上傳成功,而網絡直播都是實時播出的,如果有人在網上傳播不良資訊或者釋出違規内容,即使被查處,也是播出之後的事情。

雖然,大多數直播企業會選擇人工稽核的方式對直播内容進行實時監管,但是在過去的一年多裡,“直播造人門”、“直播脫衣門”等事件仍然頻繁發生。某直播平台負責人曾表示,視訊直播從技術不需要“上傳”這個步驟,當手機按下攝影功能鍵,雲端會同步抓取、同步存儲、同步傳遞,“延遲不會超過2秒”。在這個過程中,平台面臨的困惑是“無法掌控直播下一秒會發生什麼”,是以隻能依靠人力進行24小時輪班稽核,但是人工稽核存在的問題較多,直播内容監管風險依舊存在。

第一:網絡直播規模龐大,人工稽核成本高

2015年直播平台接近200家,使用者數量已經達到2億,大型直播平台每日高峰時間會有3000-4000千個直播“房間”同時線上,使用者數可達兩三百萬人次,如果全部用人工對4000路視訊同時進行稽核,為了保證“無漏網之魚”,至少需要上百人同時工作,并且每位從業人員需要配備1-2台監控裝置。其實直播視訊内容的違規比例占比不高,僅0.04%,甚至更低,但為了做到“無漏網之魚”,企業需要投入大量的人力、物力和财力進行監管,營運成本壓力增加。

第二:直播流量聚焦夜晚,人工稽核效率低

網絡直播白天跟晚上的“房間數”不同,目前,白天直播流量峰值是數百路視訊,晚上可以飙升到數千路。但“三班倒”的稽核人員,夜晚疲勞,人眼識别精确度降低,出現誤判漏判的機率上漲,稽核效率降低,難以達到網絡直播的内容監管需求。

是以,網絡直播行業的内容監管不能隻依賴人工,可以采用機器識别結合人工稽核的新型稽核模式。

目前,據我所知的,國内能夠為網絡直播企業的違規内容過濾提供這種模式的主要有圖普科技的“智能稽核機器人”,阿裡的“阿裡綠網”、騰訊的“萬象優圖”等。

網絡直播被嚴查,機器如何幫助鑒别小黃圖?◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

(人腦的視覺處理系統 via:simon thorpe)

上圖所表達的,就是人了解外界視覺資訊的過程。

從視網膜(retina)出發,經過低級的 v1 區提取邊 緣特征,到v2 區的基本形狀或目标的局部,再到高層的整個目标(如判定為一張人臉),以及到更高層的 pfc(前額葉皮層)進行分類判斷等。也就是說高層的特征是低層特征的組合, 從低層到高層的特征表達越來越抽象和概念化,也即越來越能表現語義或者意圖。 

深度學習,恰恰就是通過組合低層特征形成更加抽象的高層特征(或屬性類别)。然後在這些低層次表達的基礎上,通過線性或者非線性組合,來獲得一個高層次的表達。此外,不僅圖像存在這個規律,聲音也是類似的。 

現在來看深度學習的簡易模型。

網絡直播被嚴查,機器如何幫助鑒别小黃圖?◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

傳統的神經網絡與深度神經網絡

深度學習的一個主要優勢在于可以利用海量訓練資料(即大資料),在學習的過程中不斷提高識别精度,但是仍然對計算量有很高的要求。而近年來,得益于計算機速度的提升、大規模叢集技術的興起、gpu 的應用以及衆多優化算法的出現,耗時數月的訓練過程可縮短為數天甚至數小時,深度學習才逐漸可以用于工業化。 

對于開發團隊來說,做該領域的産品困難在于如何擷取大規模已标注資料、內建有 gpu 的 計算叢集以及針對自己的項目調參數,團隊需要不斷地輸入新資料,持續疊代以提高機器識别準确率。

利用深度學習算法設計的智能程式能通過快速疊代擁有強大的學習能力,并與視訊直播、社交網絡、雲計算等領域企業合作,積累大量圖檔和視訊資料,克服智能程式設計中的大資料壁壘,得到高精度的智能識别結果。

例如“鑒黃機器人”,通過将大量人工标注好的色情圖檔和正常圖檔來訓練機器認識、學習這兩類圖檔的特征,然後自動提取出可能是色情圖檔和正常圖檔的特征,當機器再“看到”相似特征的圖檔時,即可自動識别出來,當資料量越大,提取特征越準确,識别精确度越高。上文提到的圖普科技的稽核原理也是如此。

是以,新型稽核方式的原理就是:

企業根據自身需求,利用自動截圖程式對直播畫面定時(建議6-10s)進行實時截圖,發送到圖像識别雲服務平台,機器自動識别後将結果分為确定和複審兩部分,确認部分的識别精确度達到或超過人工,無需複審,對于複審部分,機器會根據可能性排序,人工再根據機率從高到低來稽核。

相對傳統的純人工稽核的模式,這種新型稽核模式的優勢主要在于: 

第一:改變傳統付費模式,成本更低,計費更靈活

直播企業隻需要按圖檔調用量付費,比如直播平台某日有推廣活動,導緻流量較大,需要稽核力度較大,付費較多,但活動結束後,稽核量減少,費用也會随之減少,不需要固定每日的付費額度。

第二:機器識别穩定,效率高

機器識别模型可以針對不同的應用場景訓練機器,對于識别結果的确認部分的稽核精準度達到99.5%,超過人眼準确度,需要人工複審的部分僅占圖檔總量的5%,随着模型的不斷優化,精确度還會繼續提升,複審率也就繼續降低。

并且成熟運作的智能稽核機器人的圖檔處理量日達3億張以上,單張圖檔響應時間小于0.2s,7x24h全天候服務。但是,如果純人工稽核3億張圖檔,如果按照人眼每小時稽核2萬張左右的圖檔計算,則需要大約625天不停歇的工作才能稽核完畢,相對人有限的精力,不停運轉的機器明顯更加穩定可控,效率更高。

第三:機器識别更簡單安全

網絡直播采用人工稽核時,需要給每個稽核人員配備相關裝置及空間,是以企業需要投入更多的營運成本,尤其對于創業的網絡直播企業,需要承受的經濟壓力更大,而機器識别隻需要通過api調用即可直接使用服務。

此外,每個企業都有專屬的id賬号,其所有調用資料都會被定期清除,不會長期存留api界面,不同企業之間資料是隔離的,無法調看非本id的資料,不用擔心企業資訊洩漏,安全度更高。 

據文化部透露,下一步将重點在經營主體管理、事中事後監管方面對網絡表演關鍵環節進行規範,以及建立違規網絡直播平台和違規“主播”警示名單和黑名單制度,加強行業自律。

是以,網絡直播企業在利用機器識别提高内容監管有效度的同時,還要加大對主播素質培養和監管力度,守住經營的底線與紅線。

原文釋出時間為:2016-04-27

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀