天天看點

【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案

作者丨孫子荀

機關丨騰訊科技專家研究員

業務定義

首先在我們讨論标題黨的時候,我們需要定義清楚,我們說的是1 僅标題帶來的主觀感受,還是 2 通過标題點選進入文章後的閱讀感受。

如果是1 :标題的感受。來源于幾個indicate 。

a .表征的有: 用詞用語 ,句法句樣式; (可以看文末【标題黨特征舉例】)

b .知識層面的有: 标題是否讓人主觀先驗到,大機率是虛假新聞。

如果是2:通過标題後閱讀文章的感受。有幾個indicate。

a.表征的有:文章直覺感受沒有資訊量如,純配圖,或者純舊聞,提現在跳出率高,閱讀時常低。

b.知識層面的有: 文章是否無營養,文章内容純在虛假。

我們根據上面的區分,根據使用特征和處理手段,把标題黨分成幾種問題domain, 希望在解決标題黨泛問題之前,先明确定義。

1型 标題型标題黨 (基于标題本身)

1.1 使用了誘導性:句法句式

1.2 使用了誘導性:用詞用語

1.3 語義本身具有誘導性

通用子問題: 分類模型(SVM,BERT)。 句法分析,

【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案

2型 文不對題型标題黨 (基于文本和内容比對情況)

通用子問題:NLP問題中的相似度量辦法都可以嘗試。

【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案

3型 無價值判定标題黨 (基于内容表現模型)

如:誘導點選,跳出率高。 使用者進入後大部分第一時間跳出。 這裡

通用子問題:資料挖掘問題,如空間異常檢查。

4型 評論判定标題黨 (基于使用者文本知識模型)

4.1 基于使用者評論分析

通用子問題: NLP情感分析,規則等。

5型 行為判定标題黨 (基于使用者行為模型)

4.2 基于負回報行為(舉報原因)

通用子問題:1.類似III型,正常資料挖掘問題;

2.模組化使用者行為,其他集體智慧程式設計方法(CF,矩陣分解等)。

6型 虛假型标題黨

如:标題本身描述是虛假的。可能是主觀虛假,也可能是客觀虛假。和正文是否虛假無關。

通用子問題:可以參考目前已有的假新聞檢測方法: https://www.jiqizhixin.com/articles/2019-02-19-22

9型 整體标題黨

嚴格來說可能不一定是一個标題黨問題,隻是具有标題黨的内容,本身也伴随着這些内容問題,比如水文,無營養判定等内容品質問題等。

【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案

備注:

  1. 以上五個類型,不具備排他性。可以同時符合多個。
  2. 9型标題黨, 可以通過多模态的分類問題直接模組化,類似無營養,水文,假新聞等

舉例

  • 斷章取義 (I, II,IV)
    • 标題:劉德華演唱會現場耍大牌!怒罵保安場面失控!
    • 内容:安保動作過大,劉德華保護歌迷安全
  • 故作玄虛 (I )
    • 标題:插了一夜沒拔,結果差點弄出人命!
    • 内容:手機充電器夜裡爆炸
  • 正題歪做(IV)
    • 标題:禽獸!一衆男明星藝人竟然對柳岩做這樣的事情!
    • 内容:包貝爾婚禮,柳岩險被群人推到泳池
  • 侮辱調侃 (I,IV)
    • 标題:九寨溝,不震你震誰?
    • 内容:九寨溝景區收入過高被仇富
  • 資料無從考證 (IIV )
    • 标題:14億人都不知道的真相,曆史的血淚!
  • 虛構名人言論經曆 (IIV )
    • 标題:李彥宏給年輕人的20句忠告!
  • 道德綁架 (I,III)
    • 标題:百度看了會沉默,阿裡看了會流淚,不轉不是騰訊人!
  • 故弄玄虛(I )
    • 标題:4歲孩子得胃癌!看他媽給他吃些什麼!!
    • 内容:4歲兒童被診斷胃癌,家長稱其愛吃燒烤

相關論文

【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案
  • Clickbait Detection[1]

作者采用了一個通用機器學習問題解決的辦法,選擇了大量的文本特征來做分類問題。

資料集:

貢獻了一套含有2992條Twiiter資料集,包含767條标題黨樣本。

效果:

LR準确率0.7 ,召回率0.7 ,NB準确率0.71 召回率0.66。二者結合RF準确率0.7 召回率0.73。

方法:

特征模闆+分類器

  1. 構造215個特征,包括三大類:
    1. 摘要資訊(Teaser message)
      • basic text statistics
        • bag-of-words features
          • character-level/word-level 1/2/3-gram
          • hashtags
        • sentiment polarity
        • readability
          • stop words-to-words ratio
          • easy words-to-words ratio
        • contractions and punctuation use(縮寫和标點符号)
          • 是否以數字開頭
          • 标點個數
          • 是否包含縮寫
        • length statistics
      • dictionary features
        • 是否命中common clickbait phrases
        • 是否命中common clickbait patterns (in the form of regular expressions)
        • 是否命中182個General Inquirer dictionaries(評價詞詞典)
    2. 相關網頁(Linked web page)
      • bag-of-words features
      • readability
      • length of main content
    3. 元資訊(Meta information)
      • tweet發送者
      • 是否有圖檔或視訊等附件
      • 是否被轉發
      • tweet發送的時間(早上/中午/晚上/半夜)

存在的問題:

沒有考慮标題(此場景下即摘要資訊)與正文(此場景下即相關網頁)的相關性,基于規則的方法不具有可擴充性,出現新的标題黨模式時需要持續優化

From Clickbait to Fake News Detection: An Approach based on Detecting the Stance of Headlines to Articles

論文中說是應用于虛假新聞,但看内容主要還是針對标題黨,(類似6型,把标題黨和假新聞結合其他看,但事實上該方法并不局限新聞的真假性)

資料集:

First Fake News Challenge (FNC1) on stance detection(2016)。

baseline:79.53%。标注了四個類别:unrelated/【agree/disagree/discuss】-> 屬于related大類

方法:

1 首先判斷是否related

  • sc = sum(TF*IDF) 對于标題H中的每個詞組 / 标題H和正文A中所有的詞組數
  • 其中TF = (H中第i個詞組在H中的詞頻 + H中第i個詞組在A中的詞頻) * 标題H中所有的詞組數
  • 詞組的長度:1-gram至6-gram,過濾停用詞和标點
  • if sc > threshold, then take it as related

2 進一步判斷agree/disagree/discuss

  • LR三分類(隻用标題)
  • 若top1分數與top2分數超過置信門檻值,則分為top1
  • 否則用三個二分類的分類器(标題+正文)綜合打分

效果:

  • 二分類93.39%,三分類88.36%,綜合89.59%

Machine Learning Based Detection of Clickbait Posts in Social Media

資料:

clickbait challenge 2017 (clickbait-challenge.com),21000多篇文章,每個樣本至少有5人标注,保證客觀性

效果:

  • RF Regression:Accuracy=0.82, F1-score=0.56
  • RF Classifier:Accuracy=0.78, F1-score=0.61

方法:

總結了已有的特征(大多在上上篇論文中已使用)

  1. 可讀性
  2. 基礎的統計特征(在中文中,大部分詞都是1-3的長度,是以詞長一般沒什麼用)
  3. 是否以數字開頭
  4. 是否以5W1H開頭(what, which, where, when, why, how)
  5. 停用詞的比例
  6. 情感分
  7. 網絡用語
  8. 詞性标注的n-gram和pattern

Clickbaits Revisited: Deep Learning on Title + Content Features to Tackle Clickbaits

  • Github源碼:https://github.com/abhishekkrthakur/clickbaits_revisited

資料:

各個新聞網站的文章爬取,約50000個樣本,其中标題黨樣本數約25000

方法:

  • 資料清洗和特征抽取(啟示:對标題黨和非标題黨樣本,部分特征可視化來呈現對比)
    • Size of the HTML (in bytes)
    • Length of HTML
    • Total number of links
    • Total number of buttons
    • Total number of inputs
    • Total number of unordered lists
    • Total number of ordered lists
    • Total number of lists (ordered + unordered)
    • Total Number of H1 tags
    • Total Number of H2 tags
    • Full length of all text in all H1 tags that were found
    • Full length of all text in all H2 tags that were found
    • Total number of images
    • Total number of html tags
    • Number of unique html tags
  • 深度學習模型
    • 快速模型:隻是用标題文本,Embedding+LSTM+3層Dense(包括PReLU、Dropout和BN)+Softmax,最後進行二分類預測
    • 精确模型:标題文本和正文文本分别使用Embedding+LSTM,然後合并feature至下一層
    • 優化1:使用GloVe初始化embedding層(效果不明顯)
    • 優化2:加入上述特征,進行Normalization+2層Dense(包括PReLU、Dropout和BN)

效果:

驗證集Accuracy=99.6%,測試集Accuracy=99.2%

【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案
  • Clickbait Detection using Deep Learning

資料:

從Reddit、Facebook和Twitter上爬取的2300多個樣本,包含800多個标題黨樣本

方法:

  • CNN
    • Embedding(同樣使用GloVe初始化,比直接用原始文本訓練的w2v效果稍好一些)
    • 分别使用大小為3-5的filter生成features并合并
    • Max-over-time pooling + Reshape + Softmax

結果:

準确率85%,召回率88%

  • Learning to Identify Ambiguous and Misleading News Headlines

    • 将模糊類和誤導類分開識别

資料:

  • 爬取了40000篇文章,包含留個不同領域(國内/國際/社會/娛樂/體育/科技)
  • 資料來源:新浪、網易、騰訊和頭條
  • 标注:随機選擇了2900多篇文章,6人标注,每篇文章至少由3人标注,需要具體标注是否為模糊類和誤導類,對于誤導類文章,凡是有争議的全部棄用。最終得到645篇模糊性文章,2279篇非模糊性文章;843篇誤導性文章,1765篇非誤導性文章。(感慨一下比例之高)
  • 未标注資料用于協同訓練(co-training)

方法:

  • 對于模糊類的标題黨,之前一些文章中選取的标題特征主要基于詞本身,缺乏句子結構和序列資訊,是以作者使用了另一種特征:分類序列規則(class sequential rules, CSR),将基本特征與CSR特征一起用于訓練SVM。
    • 文本基本特征提取所涉及到的一些資源:
      • 英文的标題黨詞表(翻譯并人工糾正):http://downworthy.snipe.net/
      • 中英文情感分析詞彙:http://www.keenage.com/html/e_index.html
      • 搜狗輸入法詞庫(比對網絡用語):http://pinyin.sogou.com/dict/
【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案
  • CSR特征的挖掘比較複雜,詳細需要看論文
    • 每個标題看做一個序列,序列中的每個詞對應一個label,共12個不同的label(除了Table 1中提到的前接詞、WH詞外,還包括2類時序副詞,分别表示過去和現在,以及9類不同的連詞)【備注:時序副詞常常用于對比,而連詞能夠通過引出假設、對比等意圖來增加内容的吸引力。】
    • 通過設定門檻值來提取出标題中常見的模式,每種模式作為一個特征。
    • 比如例句:“她是曾經的世界冠軍,但現在為工作發愁。”對應的模式為

<Ref, Past, But, Present>

  • 對于誤導類的标題黨,決定其是否具有誤導性的因素當然是标題對應的正文到底在說什麼,是以單獨從标題和正文中提取出的特征并不能說明問題。是以此類問題的特征構造尤其需要提取标題和正文的關聯性。
    • 标題單獨的特征:Table 1中特征,但不需要前接詞
    • 正文單獨的特征:
      • 資訊類:網絡用語詞頻,标題黨特色詞詞頻,以及正文的長度等
      • 情感類:正面/負面評價、正面/負面情緒以及中性詞的詞頻
    • 關聯性特征:
      • 标題與正文的資訊類特征的絕對內插補點
      • 标題與正文的情感類特征的絕對內插補點
      • 相似度
        • 抽取出在标題中但未出現在正文中的所有實體詞
        • 對于标題中除上述實體詞外的每個詞,從正文中找出與之最相近的詞,最後取平均
        • 使用TFIDF計算标題與正文摘要的整體相似度
      • 識别文字蘊含(Recognizing Textual Entailment,RTE)
        • 定義:如果H的含義能夠從T中通過常識推斷得到,那麼T就蘊含了H
        • 通過依存樹可以得到句子的結構資訊,通過比對governing and dependent words(決定了句子的主要結構)來計算RTE分數
        • 主要在正文中搜尋與标題中對應的從屬子句
        • 對同義詞、反義詞、上位詞、下位詞賦予不同的權重
    • Co-training:一種半監督的訓練方法
【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案

結果

【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案
【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案
【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案
  • 一些有趣的資料:娛樂和社會新聞是重災區
【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案
  • 基于主題句相似度的标題黨新聞鑒别技術研究

解決的case:題文不符

資料:

100篇國内新聞網站文章

結果:

準确率72%

方法

  • 新聞正文進行句子分割,統計正文句子
  • 如果正文句子數大于10,則按本文中提出的方法進行主題句抽取,得到新聞主題句集合TS,否則直接将正文内容作為TS
  • 新聞标題與新聞正文主題句集合TS進行句子相似度計算,得到相似度值P
  • 将得到的P值與門檻值T比較,即可判斷一篇新聞是否為标題黨新聞
  • 基于監督學習的新聞“标題黨”識别技術研究

    • 引用标題黨的三個特征
      • 标題内容相關度不高
      • 斷章取義,扭曲原文的上下文語境
      • 标題使用誇張極端的詞彙,設定懸念,故弄玄虛
    • 解決的case:
      • 以上三類标題黨
    • 資料:爬取800多篇今日頭條文章,包含10個頻道
    • 結果:J48準确率73.6%,召回率71.3%
    • 方法:特征模闆+分類器
      • 标題黨文章的高頻詞統計
      • 使用Gensim建立bow TFIDF LSI模型對文本相似度計算
      • 建構特征模闆
        • 評論數,标簽數
        • 标題長度,正文長度
        • 是否原創
        • 标題是否含有數字、特殊符号
        • 标題是否含有“标題黨”高頻詞彙
        • 标題與正文的相似度
      • 訓練分類器:J48,随機森林
【内容算法】内容品質之标題黨業務定義舉例相關論文業内方案

業内方案

FB

  • 定義:
    • 蓄意隐藏重要資訊
      • “她掀開沙發墊子看見這個……令人發指!”
      • “臨睡前把大蒜放進鞋子裡,結果令人難以置信!”
      • “狗對着郵差狂吠,他的反應是無價的”
      • “當你看過這些圖檔,就再也無法直視芭比娃娃了!”
    • 誇大内容誤導閱聽人
      • “一名學生錄音承認家庭犯罪,但他們必須要生存……”
      • “我們不敢相信,并兩次确認了事實。現在讓我們談談如何讓它震驚全球。”
      • “他因為一個可怕的原由改名換姓,現在終于道出了原委。”
  • 方法:
    • 臉書表示他們開發的這套算法系統與垃圾郵件過濾器的運作方式有幾分相似,都是通過“标題黨”中常見的短語去識别此類文章,進而下調該文章在消息流中的排序。而臉書的這套算法不但可以識别釋出這類内容的原始頁面,還具有學習能力。一旦該頁面停止釋出這類“标題黨”文章,其他文章的釋出将不會受到影響。目前這一系統已将數萬個标題歸類為“标題黨”。不過目前該系統并未實作全自動化,仍需要人工團隊進行分類工作。
    • Facebook在面對“标題黨”和假新聞時,依賴于使用者舉報。
    • 如果使用者在頁面停留時間長,說明内容有價值,而打開連結後又馬上傳回Facebook,說明是标題黨。
    • 如果點選量很高,而分享數很少,就說明内容缺乏價值。

頭條

  • 方法:
    • 很多“标題黨”常用的内容元素其實都是可以在文本層面進行總結的,交由機器處理的效率會更高。“正規表達式”就是定義一系列與“标題黨”相關的詞彙來維護一些規則,進而使用這些規則來檢測每一篇文章。今日頭條實際有數百人的稽核隊伍,建立起了一套比較完善的規則,并利用機器算法對每天幾十萬篇的新進文章進行篩選。由此,得到這些文章評級的高低,并對文章的标題和内容進行判斷。
    • 讓使用者對文章進行評論以及點選“不喜歡”按鈕來表達個體意見,通過一些按鈕來收集使用者行為,再對文章的标題和内容品質進行判斷,進而把内容品質不高或是存在“标題黨”行為的推送限制在很小的範圍内。
    • 過濾停留時間短的點選
    • 拆分标題裡面單個詞,并形成權重分數,同時也會拆分對詞組,并自動打分。分數超過門檻值就被認為是“标題黨”。
    • 在号主發文時提供标題檢測和警示功能。
ML

繼續閱讀