大資料和AI分析在内容安全中的應用

在中國政策下，網際網路得利者如何進行内容安全管理。短信，文章，直播視訊充斥着内容安全風險，本文詳細介紹了阿裡雲盾可以為客戶提供的内容安全的核心能力，适用的核心場景以及相關案例，希望與合作夥伴一起打造内容安全風險管理生态。

演講嘉賓簡介：

張钰，阿裡雲安全産品專家。

本次直播視訊精彩回顧，戳這裡！ 以下内容根據演講嘉賓視訊分享以及PPT整理而成。 本次的分享主要圍繞以下三個方面：

一、内容風險治理

二、阿裡雲内容安全的核心能力

三、核心場景

四、相關案例

五、我們的優勢

1.為什麼要治理内容風險？

在2017年6月1日，國家就已經正式釋出網絡安全法，并且在6月1日國家網申辦也具備了執法權。而且在2017年刑九的修訂，國家廣電總局的56号令及公安部33号令，在2018年2月，網絡遊戲管理辦法。意味着目前對應内容安全的管理，可能一年比一年嚴格。我們作為網絡内容的營運者，對網際網路内容安全是有一定的責任的。比如說，在明知道他人在提供違法犯罪資訊，還支援網際網路接入，伺服器托管，為其提供網絡存儲空間，那麼相關的主管責任人一樣會被認為是共同犯罪。另外如果對釋出的資訊不進行稽核管理，也會受到相關監管部門的六個月以内的整頓懲罰，甚至關停以及吊銷。這些内容及條例早在我們國家的相關法律和規則上已經明确指出。

2.線上内容在哪些情況下會出現内容風險？

目前，平台上隻要具備第三方的會員認證功能，或者對第三方的支援進行轉展，以及自己釋出的企業網站。都有可能存在網站的程式漏洞或者伺服器安全管理漏洞，這樣的話有可能被黑客利用，在網站上釋出違法内容，是以内容安全的管理在這時是極其重要的。比如網站上的垃圾廣告，色情内容，賭博内容，以及形形色色的違法資訊的呈現。風險核心在這邊主要分為三部分，第一部分，屬于高危内容，影響國家安全風險内容。如涉政，暴恐，武器販賣，高位資訊的篡改，以及涉及到侮辱國家政府或者上司人的相關資訊等。其次，是影響社會民生的風險。比如色情，賭博，在網際網路上傳播會影響未成年少年的資訊，如影響未來意識形态的培養和發育的内容。第三個就是對自身業務影響，比如垃圾廣告，使得推廣傳播的對方人員無法看到正常業務。

3.内部安全管理整個體系是個不斷優化的資料閉環

内容風險在不斷的疊代和變化，是以解決政策也會不斷的更新。如果違法資訊釋出者的違法速度超前，可能會導緻違法資訊泛濫，這時需要的政策是不斷的縮短攻擊者的時間，降低有害資訊的曝光時間。

阿裡雲内容安全的核心能力分為四大部分：威脅情報，資料智能，然後必須從源頭打擊，最後是安全賦能的能力。

1.資料智能 a.事前措施

在事前，對資料智能進行檢測。阿裡雲通過外部的輿情采集，通過資料資訊的大資料觀點，制定資料風險模型，再通過大資料的分析，定位高危風險，并且通過關聯使用者資訊，使用者的行為資訊，或者違法釋出者的違法資訊釋出頁面，進而推動線上方案，打擊違法釋出者，并從源頭對其進行打擊就可以徹底的控制内容風險。

b.事後措施

當違法資訊已經産生之後，阿裡雲的内容安全是提供所有資訊的内容安全檢測，比如視訊，圖檔，文本，語音等。目前來說，阿裡雲通過大資料+機器學習的智能識别，每天可以識别千億級别的内容資訊，惡意内容庫已經到了過億的記憶體。目前通過海量資料以及阿裡雲的核心産品，進行預設安全的功能，還有建立多元生态，可以保證在資料安全的情況下，進行資料智能檢測，進而幫助使用者滿足内容安全的合規要求。

c.建立藍軍形成風險檢測的閉環

在上面提到過，我們和風險産生者是一個對抗的關系，那麼如何解決不斷變化的内容安全風險？我們會有一個藍軍的體系，藍軍體系目前包括接近5000人的志願者。他們會在各個網際網路的場景下為我們提供風險情報的内容，以及風險形容。我們有全國各個監管的一個情報通道，我們能夠對國家的一些内容安全管控進行政策解讀，我們可以建立新的規則，并且阿裡雲有自己的合作夥伴，目前我們已經與全國各地的安全聯盟一起共享規則。目前我們的風險情報内容已經接近萬條，而且調優規則基本上每天每周都在更新。

2.黑灰産的威脅情報能力

目前來說，我們肉眼可以看到的内容風險資訊包括賭博，色情，詐騙等，其實這些内容的産生的背後其實隐藏了很多的産業鍊對上述犯罪資訊的釋出作支撐。比如說，灰帽SEO是專門針對這些非法資訊提供推廣服務。比如說我們去識别這些源頭，他們是通過惡意注冊，虛假認證和虛假交易的方式産生的。另外在市面上有提供技術支援的産業，比如提供軟體，平台，工具，或者說有特殊的管道承接這些業務。以上都是我們打擊的目标和情報擷取的來源。

大資料和AI分析在内容安全中的應用
3.源頭打擊

内容安全其實跟基礎安全是一樣的，安全問題的源頭往往都是黑灰産。舉例來說，一個企業網站，如果他的網站程式有漏洞或者伺服器安全沒有管理好的話，可能會被入侵，挂馬甚至蹿改。比如寄生蟲木馬，如果通路一個頁面，會産生千千萬萬個頁面。那麼如何去将産生的不屬于自己業務的内容進行管理呢？需要從源頭解決，比如解決本身漏洞問題，木馬問題，進而保障我們的正常業務不被違法資訊所攻陷。

下圖是惡意發帖的産業鍊條分析，雇主是真正做違法産業的一些人，然後他通過下一個管道，也就是職業發帖人，可能通過一些群或别的通道承接雇主的業務。再通過自動軟體工具，進行違法内容的釋出。釋出最終的利益點就是推廣，某些搜尋引擎一旦被黑灰産所攻陷，整個資訊管道變成違法資訊的推廣，而不是正常資訊的推廣，這導緻正常業務受到很大的損害。我們要将整個産業鍊裡面的違法資訊進行管理控制的話，必須要從源頭上進行解決。

4.安全賦能

最後是阿裡雲内容安全提供給客戶的安全解決方案。首先了解一下如果客戶要自建内容安全管理能力的話大概需要花費的成本。因為目前網際網路的營運者對内容安全的管控是一個必須的工作，如果要投入自建的能力，假設日新增的圖檔達到百萬級的話，大概需要投入的人力需要一百人的稽核人力。而且這一百人，每個人要審大概一萬張圖檔，前提是他們對違法資訊的認知層面達到了一緻，而且相當專業水準才能完成一萬張的稽核。如果使用者要自建團隊，需要兩年的時間，并且要建算法能力，建平台，平台包含資料采集能力，資料稽核能力，資料識别能力等。這樣的話大概需要三十個人的開發工程師和算法工程師才能建立一個内容安全管理團隊。是以如果每天新增一百萬的圖檔的話，每年投入在内容安全管控的成本上達到一百萬才能滿足相關政策的要求。如果采用第三方提供的内容安全方案的話，可以節省90%的成本投入。并且阿裡雲内容安全服務具備相當成熟的能力。因為後端有龐大額算法工程師團隊，而且已經有多年的實踐經驗，并且有相當龐大的政府情報管道以及解決專家，随時可以為使用者提供内容安全咨詢服務。

目前雲盾.内容安全可以提供文本，圖檔，視訊以及語音的格式檢測。并且支援一鍵接入，接入方式主要有三種，第一種是API，這種方式對本身有技術實力的使用者比較适用。第二點，如果使用者本身已經使用了阿裡雲的OSS，或者CDN，或是視訊雲，還是自己的一個網站，都可以為其提供一鍵綁定的内容安全檢測，這一點适用于不具備開發能力的使用者。另外是對于金融，政府，以及内容隐私性強烈要求的機構也提供本地化方案。目前識别能力分為兩塊，一個是通用的識别能力，線上内容安全檢測分為三部分，第一部分對違法資訊進行檢測，比如色情，涉政，暴恐。第二部分是知識産權的檢測，第三部分是定制檢測。比如說不良場景，圖檔管理，，文本管理，以及視訊管理的特殊圖像的識别，我們是接受算法定制的。

雲上解決方案，上面講過，我們目前跟阿裡雲的核心産品，包括視訊雲，OSS，CDN等都有預設的合作，隻需要在控制台對檔案，視訊一鍵設定和綁定。目前我們支援視訊的拉流，拉流回來之後通過接口進行識别，然後通過算法進行決策之後接到控制台，在控制台可以安排管理人員對違法資訊進行二次的稽核和管理。

目前具備的回流的閉環資料體系，當産品接入之後會提供測試的環境，測試完了之後會有專業的算法營運工程師為使用者提供7*24小時的專業算法調優，我們會合力一起來對标管理的内容，之後再為使用者部署專屬的政策，之後專業的營運中心對使用者的識别接口做分析和确認。如果識别過程中出現資訊資料外漏或者不準确的地方，我們會将資料進行資料回流，然後通過資料分析，對樣本進行擴源，然後動态調優進而滿足使用者本身的适用場景。

場景一:UGC内容智能稽核

UGC内容主要分為幾個場景。一個是會員區域，在網際網路場景中，會員區域的内容很多都需要進行管理。會員的頭像，會員的名字以及會員的切屏。對會員資訊的更改是不允許的，是以說我們對會員區域的管理是必須要有的。另外一些互動類的，比如對發帖資訊進行管理檢測。第三是直播區域，如直播的封面，直播本身的視訊内容以及彈幕和互動的資訊。還有一部分是電商場景，這部分國家是有嚴禁的管控，比如煙草禁止在網際網路上售賣。是以我們在電商場景也提供内容安全的檢測和識别。商家的産品，産品描述需要通過管理，另外買家的買家秀也需要通過管理。另外一部分是新聞門戶，如果是通過自助的媒體進行釋出其實這一塊的風險是較少的，但是如果是通過第三方轉展的新聞，那麼需要對第三方的轉展内容進行内容稽核，以免對平台造成進一步的風險。

場景二:垃圾短信/彩信

目前中國很多營運商的公司是做短信業務的分發和售賣。對于短信，我們也提供文本反垃圾等識别服務，違法内容識别，如廣告短信，賭博短信，促銷短信等。

功能一:智能鑒黃

目前支援圖檔和視訊的鑒黃功能，我們的識别準确率基本上達到99%的标準。其中分為純的色情，低俗等内容。通過國家政策的調控，我們是可以随時調配标準的。

大資料和AI分析在内容安全中的應用
功能二:暴力涉政識别

我們支援暴力涉政的識别，目前包括武器，敏感人物，血腥場面，特定着裝，煙光場面以及特殊符号等的識别。

功能三:廣告識别

廣告識别的特色是多層防護，層次過濾，以最快的速度達到最大的效果。其中主要包括二維碼識别，OCR識别。我們可以把廣告中的文字提取出來，再過一遍算法。

功能四:不良場景

主要可以支援識别畫中畫，無意義直播，抽煙，紋身，自殺等不良場景。每個場景采用獨立模型，解決了單一分類模型不同分類訓練的互相幹擾，準确度不高等文通。

功能五：文本反垃圾

主要針對評論，正文，小說場景，文本場景。目前的技術除了關鍵詞的提取以外，還有深度學習，語義分析的技術。語義分析主要針對小說場景。

功能六:語音反垃圾

語音識别主要包括兩部分，一個是有語義，另一個是無語義。語音轉文字場景中可以使用文本反垃圾的模型。第二個是聲紋識别，主要在比較嘈雜的環境中識别違法的内容。

功能七:視訊/直播流綜合決策

這項功能主要包括兩部分。一個是視訊指紋識别，因為阿裡積累了一個龐大的視訊庫，可以對視訊中的指紋進行比對，命中快速傳回。第二是常見的直播截幀的方式，通過不同頻度的截幀，多元綜合決策，回報在什麼時間點出現了内容風險。

場景三：人臉定位

因為很多app有美顔的功能，化妝的功能。我們可以通過人臉識别功能，識别出人的姓名，性别，年齡，簡單描述以及能夠識别出敏感人物的臉。

場景四：人臉認證

利用人臉識别功能可以做到人臉認證，通常在實名認證的場景。比如說注冊認證，遠端開戶等場景。比如在深圳入住酒店都有識别人臉，看這個人是不是存在風險的。阿裡提供人臉1：1的比對功能，核對是否與身份證一緻。

場景五：人臉搜尋

阿裡可以為教育，安防機構提供相關的人臉搜尋功能，比如前段時間的紅黃藍事件，幫助他們提示風險。另外在無人商店，餐飲做管理，識别風險。

目前我們的功能是1：N的搜尋，首先定位一個人臉，再從人臉庫中進行對比搜尋。

場景六：圖中文字抓取分析

垃圾廣告中做圖檔文字分析，可以防止垃圾廣告的宣傳。另外票據資訊的提取，可以幫助稅務業務的執行。通過OCR功能，可以從很多圖檔中提取不同的文字，繁體字，特殊字元等等。

場景七：特殊辨別識别

很多辨別被相關人士盜用了之後，無法保障使用者的版權，阿裡可以提供特殊辨別識别做到版權保護。另外直播場景中的競品屏障，如自己的直播場景中出現競争對手的LOGO。使用LOGO檢測，支援任何定制化的LOGO訓練。

1.相關案例一

目前阿裡正在服務的某直播公司，每天的直播路數是2000-6000的範圍内，如果單純靠人力是無法完成識别的。阿裡可以根據不同場景不同頻度的截幀，利用智能化的算法，資料分析，識别出具體的安全風險。阿裡提供的方案幫助客戶解決了因為無法全審所有的直播導緻的風險漏洞帶來的問題，并且将稽核量降為了1%，為客戶節省了很大的稽核人力成本的投入。

2.相關案例二

阿裡服務的某視訊傳播公司，比如有線電視，像小米電視，都是轉入第三方的視訊資料，阿裡通過視訊檢測幫助客戶檢測不合規的内容，以免造成未成年人身心健康問題。

雲盾在2017年8月1日正式釋出，目前雲盾日處理圖檔已經達到10億張，并且覆寫了100種以上風險場景，而且已經有200多個算法工程師。截止2018年3月，以服務約10000+網際網路企業，政府，房産，傳媒公司。與50+內建廠商，虛拟營運商形成合作，希望在未來合作打造内容安全風險管理生态。

本文由雲栖志願小組董黎明整理

大資料和AI分析在内容安全中的應用

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希