圖像識别，怎樣守護網絡直播的底線？| 硬創公開課

今年8月，雷鋒網将在深圳舉辦一場盛況空前，且有全球影響力的人工智能與機器人創新大會。屆時雷鋒網将釋出“人工智能&機器人top25創新企業榜”榜單。目前，我們正在拜訪人工智能、機器人領域的相關公司，從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中，請聯系：[email protected]。

雷鋒網按：本文整理自圖普科技李明強在雷鋒網(公衆号：雷鋒網)硬創公開課上的演講。李明強是圖普科技創始人& ceo。原騰訊t4技術專家，騰訊資深項目經理，qq郵箱項目負責人，微信立項創始人之一。

1、直播内容監管存在什麼困難？

第一、網絡直播規模龐大，人工稽核成本高

2015年直播平台接近200家，使用者數量已經達到2億，大型直播平台每日高峰時間會有數萬個直播“房間”同時線上，使用者數可達千萬人次，如果全部用人工對1萬路視訊同時進行稽核，為了保證“無漏網之魚”，至少需要數百人同時工作，并且每位從業人員需要配備1-2台監控裝置。

比如映客現在在稽核上投入的人力是800多人，占用了7000平方米的稽核基地，24h的人力稽核。其實直播視訊内容的違規比例占比不高，僅0.04%，甚至更低，但為了做到“無漏網之魚”，企業需要投入大量的人力、物力和财力進行監管，營運成本壓力增加。

第二、直播流量聚焦夜晚，人工稽核效率低

網絡直播白天跟晚上的“房間數”不同，目前，白天直播流量峰值是數百路視訊，晚上可以飙升到數千路。但“三班倒”的稽核人員，夜晚疲勞，人眼識别精确度降低，出現誤判漏判的機率上漲，稽核效率降低，難以達到網絡直播的内容監管需求。

第三、主播實名及直播實時驗證難

直播平台注冊簡單，主播規模擴充迅速，如果實名驗證完全依靠人力稽核，人力成本增加，難以做到真實有效的稽核；再加上一些稍微大一些的直播平台高峰期時期會有上萬人，如果每次主播直播時，都驗證是否屬于本人在直播，這又增加一部分人力成本，對于一些中小型直播創業企業而言，營運難度上升。

2、國家對于監管出台的政策，對直播平台有什麼影響？

（1）從直播平台本身來說，能夠促進直播平台加強自律：例如部分直播平台規定主播需實名驗證、滿18周歲；直播内容存儲時間不少于15天；所有直播房間内添加水印；對于情節嚴重的主播将列入黑名單、對直播内容進行24小時實時監管等。

（2）從直播平台的發展來說，對于大型企業的發展是比較有優勢的，大型直播平台對監管成本上升的承受能力比較高，中小型視訊直播平台将在監控審查成本的提升環境下挑戰增大。

（3）從直播平台的内容發展來說，依靠色情、暴力等擦邊球的“激進”内容來吸引使用者的道路越來越不可行，未來受歡迎有潛質的主播也許會更加偏向專業化。

1、稽核直播的方式都有哪些？

傳統的圖像稽核方式主要有兩種：

純人工稽核：企業員工“三班倒”工作；

傳統智能稽核：人眼鑒别該圖檔或視訊是否違規；傳統的智能稽核：如識别色情圖像，基本是通過圖檔 rgb 值識别膚色比例；通過模組化識别異常動作、敏感部位等。

但是這兩種稽核方式都存在較大的漏洞，“三班倒”的人工容易導緻稽核效率低、誤判漏判多等主觀性問題；傳統智能識别色情圖檔準确率低、經常誤報等。而且這三種稽核方式對近兩年熱門的視訊直播稽核需求更難以滿足。

現在主要是利用機器識别結合人工稽核的模式進行稽核，機器識别是依賴于人工智能領域最新的算法:深度學習算法,通過模拟人腦神經網絡,建構具有高層次表現力的模型,能夠對高複雜度資料形成良好的解讀。通過大資料持續訓練、頻繁的疊代,不斷提高鑒黃精确度，有效節省人工複審的工作。

2、稽核直播内容，機器都做了什麼？

（1）機器稽核直播内容是否涉黃、違法

機器主要是用來專門判斷哪些圖檔是色情的或者需要被過濾掉的違法資訊，它在這方面的智能程度是可以替代人力的，經過機器稽核後的資料，會分為“确定”和“不确定”的兩個部分，确定部分的可以達到99.5％的準确率，不确定的會誠實地告訴客戶，由客戶做出決斷。不确定的部分可能隻占到稽核總量的1～2%，原先需要100個人稽核，經過機器識别服務，就可以隻用1～2個人來完成了。

（2）機器識别的工作原理

簡單來說，可以把深度學習了解為一個空白的人腦，這些大量的資料就是灌輸進來的經驗。深度學習是屬于機器學習的一個範疇，是最新的機器學習的技術，主要展現在“深度”這兩字上。

深度學習可以了解為“深度機器學習”的意思，因為普通或者傳統的機器學習，在神經網絡的複雜度和層數沒有像現在這麼高，深度學習就是一層一層的層數變多了，層數和複雜度都加深了許多，是以現在才會叫做深度學習。

譬如說你想訓練一隻狗，狗做對了你就給它激勵，為它或者做錯了你就懲罰它，那久而久之它就知道哪些是正向、或負向的激勵，然後就明白自己哪些事情是自己應該去做的，對于錯誤的事情的想法也會逐漸被抵消。

當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎，然後讓引擎不斷學習，然後把他們做對的進行獎勵，做錯的就懲罰，當然這些獎勵和懲罰都是數學上的，最後空白的腦袋就會學成了一種連接配接的模型，這種模型就是為了鑒别色情與非色情而生的。

機器識别原理的圖像識别技術是如何像人腦一樣認識、學習圖像特征的呢？

其核心是深度學習理論(deep learning)。深度學習就是人工神經網絡(artificial neural network，以下簡稱 ann)。要了解 ann，讓我們先來看看人類的大腦是如何工作的。

（人腦的視覺處理系統 via：simon thorpe）

上圖所表達的，就是人了解外界視覺資訊的過程。

從視網膜(retina)出發，經過低級的 v1 區提取邊緣特征，到v2 區的基本形狀或目标的局部，再到高層的整個目标（如判定為一張人臉），以及到更高層的 pfc（前額葉皮層）進行分類判斷等。也就是說高層的特征是低層特征的組合，從低層到高層的特征表達越來越抽象和概念化，也即越來越能表現語義或者意圖。

深度學習，恰恰就是通過組合低層特征形成更加抽象的高層特征（或屬性類别）。然後在這些低層次表達的基礎上，通過線性或者非線性組合，來獲得一個高層次的表達。此外，不僅圖像存在這個規律，聲音也是類似的。

下面來看看深度學習的簡易模型：

傳統的神經網絡與深度神經網絡

深度學習的一個主要優勢在于可以利用海量訓練資料（即大資料），在學習的過程中不斷提高識别精度，但是仍然對計算量有很高的要求。而近年來，得益于計算機速度的提升、大規模叢集技術的興起、gpu 的應用以及衆多優化算法的出現，耗時數月的訓練過程可縮短為數天甚至數小時，深度學習才逐漸可以用于工業化。

對于開發團隊來說，做該領域産品的困難在于如何擷取大規模已标注資料、內建有 gpu 的計算叢集以及針對自己的項目調參數，團隊需要不斷地輸入新資料,持續疊代以提高機器識别準确率。

那麼為什麼之前機器學習沒有爆發，隻是在這一兩年開始爆發？

因為機器學習需要同時滿足三個條件：

1、海量的資料（大家都知道網際網路發展那麼多年，已經積累了大量的資料了）； 2、高性能計算的能力（顯示卡和gpu因為摩爾定律的發展，也已經積累了很多年）； 3、深度學習的算法（是在2012年被一次imagenet的比賽，被業界廣泛注意到，隆重地登上了曆史的舞台）

3、直播數量那麼大，如何稽核/推薦？

1）做圖像識别的公司有哪些，競争差異在哪裡？

在智能稽核垂直領域的有騰訊優圖、阿裡綠網，他們主要為自身的平台客戶提供稽核服務，不屬于第三方。

2）目前服務的直播客戶包括花椒、在直播、映客、17直播、悟空tv等等。

這裡主要分為兩種服務類别：

标準稽核服務：包括鑒黃、暴恐識别、廣告識别、敏感人臉過濾等；個性化定制服務：根據客戶的實際需求，定制專屬的圖像識别整體解決方案，譬如針對特定場景（抽煙、喝酒、打架、自殘等）的稽核，人臉識别（主播顔值、風格、表情、年齡、性别、其他外在特征等）、場景識别（主播直播時所在環境）、物體識别（直播平台中出現的物體）等各種圖像的識别。

直播平台的個性化推薦，是在傳統推薦系統的基礎上，融入圖像識别技術，以使用者的即時興趣為基礎，智能推薦符合使用者心理預期的内容。

比如在場景的精準推送上，可以基于人臉、場景、商品識别與分析技術，抓取視訊内的價值資訊，實作最精準的内容比對；

在主播風格推薦上，可以自動分類不同風格的男神女神，根據使用者平台資料和興趣，智能推送偏好類型；

還可以建立顔值推薦系統，基于人臉識别，機器自動将高顔值主播推薦給使用者等。

1、除了稽核直播，機器學習還能做什麼？

除了幫助直播平台規避内容風險，機器識别還可以通過以下幾個形式優化視訊直播平台：

第一、通過圖像識别對主播進行分類，可以得出直播平台的内容是否健康，或者給主播打上标簽，平台是否需要培養和扶持一些比較稀缺、受歡迎的主播。

第二、深挖直播平台的圖像識别雲服務，例如主播正在做什麼，唱歌、跳舞、抽煙、化妝、睡覺或其他。在将來全民生活直播，可以挖掘的資訊量就更大，包括萬事萬物的識别，視訊内出現的車、手機、玩具或其他的，這都是反映了一個人的生活習慣、行為習慣，機器可以根據使用者偏好，智能推送相應直播視訊，幫助直播企業更好地進行使用者互動營運。

第三、直播的視訊内發出的所有圖像資訊，包括人物、地點、活動、事物、背景等，在以人工智能技術作為基本支撐下，可以幫助使用者智能搜尋所需資訊，像ktv、餐廳、教室等，這些都是可以提高産品和使用者體驗，或者企業想将這些資訊流量變現，均可按企業需求定制。

第四、基于人的智能搜尋，幫助直播平台把使用者和内容串連起來，把相似的主播串連起來，讓使用者找出自己想要的人物形象。例如使用者可以描述自己夢中情人的形象然後進行智能搜尋，或上傳自己的照片即找出與自己最有夫妻相的主播等，這都是目前同質化直播平台沒有做到的事情。

1、凱文凱利說過：“很快人工智能就講變成一種日用品。智力會像電力一樣通過網絡傳輸。” 這意味着，人們将生活在被人工智能所包圍的世界裡。

應用上，建立更加實用的學習系統，特别是開展多種學習方法協同工作的內建化系統的研究，機器學習将會深度融合到各個行業，人工智能+的時代正在開啟。

雖然短時間内人工智能無法了解人類的情感，在未來的五年内，人工智能技術領域的創業企業将會倍增，開發出一些功能性的應用，人工智能将在這些專業功能上輔助人類或直接取代人類。例如人工智能可以為你推薦新聞，幫你掃地，幫你駕駛汽車，甚至幫你管理健康狀況等。五年後，将會出現一批相對成熟的垂直領域的人工智能企業，人工智能與傳統企業的結合更加緊密。

2、技術上，發展和完善現有的學習方法，同時開展新的學習方法的研究，針對某個或者某類應用的特定的學習方法将會不斷湧現，資料管理得到更多的關注，資料的價值将繼續擴大，對于機器學習結果的解釋會逐漸受到重視。

編者注：以下是雷鋒網精選公開課上的幾個精彩問答分享——

1、利用機器識别是如何對直播中的非法視訊進行處理的呢？

通過間隔截圖，關鍵幀截圖之類的對視訊進行處理，因為監控是旁路的，而且可以做到峰值每秒5k并發，1s-2s傳回，是以不會影響實時性。在檢測到了相符資訊後，機器會實時回報結果給客戶。至于是屏蔽、删除或者禁播等方面的處理，主要是看業務方，可以選擇由機器自動處理或者人工介入。

2、圖像識别應用在智能醫療領域是怎麼的？

圖像識别不僅在網際網路行業有應用，在其他行業的應用也是非常廣泛的。

比如在在智能醫療領域就有專門的小領域來專門做醫療影像處理，就像是可以通過患者的如肝髒的影像，去判斷有沒有癌變；如眼睛的影像，判斷有沒有白内障等; 更細的還有，到血管的圖像，去判斷有沒有阻塞等。另外在一些傳統領域上的應用，例如基于圖像搜尋，可以幫助商标局建立商标庫，新注冊的企業就可以自動搜尋是否相同的商标被注冊了；基于物體識别，可以協助鐵路交通部門自動檢測線路的電閘是否損壞、掉漆來判斷是否需要更換；還可以幫助電視台做廣告監播，監測某個品牌露出的時間、某個時間上某個商标展示的時間長度等。

本文作者：小芹菜

圖像識别，怎樣守護網絡直播的底線？| 硬創公開課

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希