天天看點

Datawhale - 入門NLP之新聞文本分類 - task1 賽題了解學習背景1.賽題了解2.學習目标3.賽題資料4.資料标簽5.評測名額6.資料讀取7.解題思路

PS. 轉載來源:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281897.0.0.209439a9tiEEEt&postId=118252

目錄

學習背景

1.賽題了解

2.學習目标

3.賽題資料

4.資料标簽

5.評測名額

6.資料讀取

7.解題思路

學習背景

本次學習背景是,在datawhale組織中報名學習:入門NLP(以新聞文本分類賽事進行學習)。

學習過程中,逐漸記錄心得和學習的收獲!!!

1.賽題了解

  • 賽題名稱:零基礎入門NLP之新聞文本分類。
  • 賽題目标:通過這道賽題走入自然語言處理的世界,接觸NLP的預處理、模型建構和模型訓練等知識點。
  • 賽題任務:賽題以自然語言處理為背景,要求選手對新聞文本進行分類,這是一個典型的字元識别問題。

2.學習目标

  • 了解賽題背景與賽題資料
  • 完成賽題報名和資料下載下傳,了解賽題的解題思路

3.賽題資料

        賽題以匿名處理後的新聞資料為賽題資料,資料集報名後可見并可下載下傳。賽題資料為新聞文本,并按照字元級别進行匿名處理。整合劃分出14個候選分類類别:财經、彩票、房産、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂的文本資料。其中:訓練集20w條樣本,測試集A包括5w條樣本,測試集B包括5w條樣本。(注:為了預防選手人工标注測試集的情況,我們将比賽資料的文本按照字元級别進行了匿名處理)。

4.資料标簽

處理後的賽題訓練資料如下:

Datawhale - 入門NLP之新聞文本分類 - task1 賽題了解學習背景1.賽題了解2.學習目标3.賽題資料4.資料标簽5.評測名額6.資料讀取7.解題思路

在資料集中标簽的對應的關系如下:{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時政': 4, '社會': 5, '教育': 6, '财經': 7, '家居': 8, '遊戲': 9, '房産': 10, '時尚': 11, '彩票': 12, '星座': 13}

5.評測名額

評價标準為類别

f1_score

的均值,選手送出結果與實際測試集的類别進行對比,結果越大越好。

6.資料讀取

使用

Pandas

庫完成資料讀取操作,并對賽題資料進行分析。

7.解題思路

        賽題思路分析:賽題本質是一個文本分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作,這個是賽題的難點。是以本次賽題的難點是需要對匿名字元進行模組化,進而完成文本分類的過程。由于文本資料是一種典型的非結構化資料,是以可能涉及到

特征提取

分類模型

兩個部分。為了減低參賽難度,我們提供了一些解題思路供大家參考:

  • 思路1:TF-IDF + 機器學習分類 --- 直接使用TF-IDF對文本提取特征,并使用分類器進行分類。在分類器的選擇上,可以使用SVM、LR、或者XGBoost。
  • 思路2:FastText ---  FastText是入門款的詞向量,利用Facebook提供的FastText工具,可以快速建構出分類器。
  • 思路3:WordVec + 深度學習分類器 --- WordVec是進階款的詞向量,并通過建構深度學習分類完成分類。深度學習分類的網絡結構可以選擇TextCNN、TextRNN或者BiLSTM。
  • 思路4:Bert詞向量 --- Bert是高配款的詞向量,具有強大的模組化學習能力。

繼續閱讀