知物由學 | 一文讀懂網際網路内容稽核機制

本文由網易雲釋出。

“知物由學”是網易雲易盾打造的一個品牌欄目，詞語出自漢·王充《論衡·實知》。人，能力有高下之分，學習才知道事物的道理，而後才有智慧，不去求問就不會知道。“知物由學”希望通過一篇篇技術幹貨、趨勢解讀、人物思考和沉澱給你帶來收獲的同時，也希望打開你的眼界，成就不一樣的你。當然，如果你有不錯的認知或分享，也歡迎通過郵件（[email protected]）投稿。

以下為本期正文：

由于Facebook，Twitter和YouTube都在不同程度上對内容稽核團隊的人力資源進行了配置，這裡介紹幾點這些系統中通常是如何工作的。其中大部分是基于我在YouTube工作時的經驗，但我發現同行公司也以類似的方式這麼做。請注意，我将重點關注使用者生成/共享内容，而不是廣告政策。廣告通常擁有自己的獨立标準。這裡更多的是關于一般使用者建立，上傳和釋出的文本，圖像和視訊/音頻的稽核政策。

内容稽核意味着什麼？

内容稽核或内容審查是應用于使用者在社交平台上上傳、釋出或共享的内容（文字，圖檔，音頻，視訊）的一個術語。它與廣告或社論截然不同（例如，如果某個組織記憶體在這樣的功能，則可以在網站上查找特色/促銷内容），這些内容通常在審查内容時具有單獨的團隊和指導方針。

大多數内容稽核團隊的目标是執行産品的社群标準或服務條款、标準中規定了平台上可以共享的内容以及無法共享的内容。正如你可能猜到的，所有這些都有黑、白和灰色的區域，這意味着對于人工稽核人員有指導、教育訓練和更新政策。

人什麼時候參與到這個過程？

如下兩點稽核對于人工來說是少有的（也是不可取的）：（a）審查網站上分享的所有内容。（b）審查内容預釋出，即當使用者試圖分享某些内容時，在網站/應用程式上線之前，需要人為“準許”。

相反，公司依靠内容審查算法來完成很多繁重的工作。這些算法試圖“了解”正在建立和共享的内容。其中包括：是誰上傳的（帳戶曆史記錄或缺少相關資訊），是從哪裡上傳的，内容本身和其它中繼資料。由于内容存在于産品中，是以會獲得更多資料—誰在使用它，是否被使用者标記，是否由使用者共享等等。

這些更豐富的信号将影響算法，繼續調整其結論，即一段内容是否适合該網站。這些系統大多數都有使用者标記工具，該因素嚴重影響了内容是否應該提升審查力度的算法評分。

大體而言，可以在任意給定時間将一段内容視為綠色，黃色或紅色。綠色意味着算法認為内容在網站上存在是好的。黃色意味着内容是存疑的。紅色，紅色意味着它不應該在網站上。它們的界限都是不固定和不完美的。一直有誤報的情況。

要想将内容政策的有效性考慮為正好，技術的品質将是不完備的。這實際上是一個由人為決定并在代碼層面強制執行的政策問題。管理層需要設定綠色，黃色和紅色之間的分界線。他們确定一個未知的新使用者是否應該預設為可信的。他們總結了如何優先審查綠色，黃色或紅色資料存儲容器中的項目。這就是人工主要參與的地方…

什麼是審查隊列？

人工審查幫助算法建立訓練集，但其主要功能是不斷地為算法吐出的内容審查隊列進行人員配置。隊列通常分為不同的容器，根據審查的優先級（例如，這是緊急的，7*24小時實時審查）以及審查人員的特點—受過不同類型的内容審查教育訓練，會說不同的語言等等。這是一個内置大量邏輯的類似工廠的複雜系統。

進入平台的内容數量以及觸發人工審查所需的算法門檻值是影響進入審查隊列的内容數量的因素。人工審查人員的數量，他們的教育訓練/素質，以及他們工作的工具的有效性都會影響内容審查的速度。

是以，當聽說“10,000人的審查人員被添加”時，它可能是（a）更多内容要被審查[門檻值正被修改以将更多内容放入審查隊列中）和/或（b）審查隊列内容需要審查的更快[相同的内容，但更多的審查人員]。

這些公司真的關心這個事情嗎？

坦白地說答案是肯定的，但是……

内容操作通常是一個成本中心，而不是收入中心，是以它的管理就有成本風險以及可能會缺乏資源。

内容操作有時可能被認為是産品經理，設計師和工程師的“初學者”工作，是以它讓較年輕的，缺少影響力的人員在1-2年後習慣性地轉向新項目。

在高層上司和團隊中缺乏多樣性和錯位激勵，可能會導緻對平台上“糟糕”内容的真實成本（對品牌，對使用者體驗）的低估。

為什麼赤裸裸的色情内容是最容易審查的...但是為什麼“性”内容審查更難？

因為比起Twitter，Facebook和YouTube，有很多更好的地方可以分享色情内容。而且算法實際上非常擅長檢測裸體。然而，為滿足性需求而制作的内容并不明确涉及裸體，這對于平台而言審查要困難得多。

管理層應考慮什麼是我的“最佳實踐”？

将其作為儀表盤級别的衡量标準，如果CEO和她的團隊在使用内容、收入等方面關注内容安全名額，那将證明它很重要，并且會更适當地配備人員。

用#s而不是百分比來說話，這些大平台總是說“好的，我們的内容99％是安全的”，但他們真正的意思是“1％的點仍然是一個真正的大資料。”最小化的架構真的是公關的事情—背離了認真對待這個事情的真正目标。

緻力于防止重複侵權并從最初的侵權行為中快速恢複，沒有人期望這些系統是完美的，我認為信任使用者直到他們證明自己是不可信的通常才是好的。在他們不可信之後，用力打擊。Twitter在這個問題上感覺特别糟糕—在任意給定的時間，系統上有很多灰色區域的使用者。

管理層應該把時間花在審查隊列上，當我在YouTube主導産品時，試圖習慣性地花時間在内容審查隊列上，因為我不想讓自己脫離現實。我看到了許多令人讨厭的東西，但也一直贊賞我們的稽核團隊和使用者所經曆的一切。

響應時間是新的監管架構—，我想知道政府是否有責任對内容進行監管，但對内容标記的響應時間進行調整。這裡有很多複雜的事情，規則可以建立激勵不标記的内容，但這是我所不知道的一個領域。

本文為網易雲易盾組織翻譯，來源：hterterwalk，譯者：無阻我飛揚。

更多安全技術幹貨、趨勢解讀、人物思考和沉澱，請關注：yidun_163yun （網易雲易盾公衆号）

了解網易雲：

網易雲官網：https://www.163yun.com/

新使用者大禮包：https://www.163yun.com/gift

網易雲社群：https://sq.163yun.com/

知物由學 | 一文讀懂網際網路内容稽核機制

繼續閱讀

雲查毒：避免惡意程式入侵的正确姿勢

防火牆基礎之内容安全過濾

敏感詞過濾、網站資訊安全檢測自動化設計方案

文本差錯多，時政審校又不行！内容安全，我該拿你怎麼辦？

幹貨 | 鴻翼＆深信服之内容安全3大應用場景實踐

天空衛士業務應用資料内容安全平台入選大資料“星河”優秀案例

知物由學 | 告别挑花眼，AI算法如何篩選低品質圖檔？

剖析一種短文本内容安全檢測技術

統一推送工委會在3月7日宣布，華為、OPPO等品牌全面支援推必安2.0版本。可能大家并不了解，推必安其實是統一推送工委會

【踩坑日記】阿裡雲内容安全

2023.04.04股市午盤熱點：漢邦高科——子公司金石威視主營基于數字水印技術的内容安全與服務。數位視訊——推出Str

【案例】互軟UCM網站群管理系統—資料安全、内容安全一站式解決

Kali Linux進行簡單的網頁嗅探

人工智能内容安全不能忽視

知物由學 | 易盾SaaS系統資損防控體系建設

知物由學 | 輿情資料清洗“動”“靜”分離方案