PS. 轉載來源:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281897.0.0.209439a9tiEEEt&postId=118252
目錄
學習背景
1.賽題了解
2.學習目标
3.賽題資料
4.資料标簽
5.評測名額
6.資料讀取
7.解題思路
學習背景
本次學習背景是,在datawhale組織中報名學習:入門NLP(以新聞文本分類賽事進行學習)。
學習過程中,逐漸記錄心得和學習的收獲!!!
1.賽題了解
- 賽題名稱:零基礎入門NLP之新聞文本分類。
- 賽題目标:通過這道賽題走入自然語言處理的世界,接觸NLP的預處理、模型建構和模型訓練等知識點。
- 賽題任務:賽題以自然語言處理為背景,要求選手對新聞文本進行分類,這是一個典型的字元識别問題。
2.學習目标
- 了解賽題背景與賽題資料
- 完成賽題報名和資料下載下傳,了解賽題的解題思路
3.賽題資料
賽題以匿名處理後的新聞資料為賽題資料,資料集報名後可見并可下載下傳。賽題資料為新聞文本,并按照字元級别進行匿名處理。整合劃分出14個候選分類類别:财經、彩票、房産、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂的文本資料。其中:訓練集20w條樣本,測試集A包括5w條樣本,測試集B包括5w條樣本。(注:為了預防選手人工标注測試集的情況,我們将比賽資料的文本按照字元級别進行了匿名處理)。
4.資料标簽
處理後的賽題訓練資料如下:
在資料集中标簽的對應的關系如下:{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時政': 4, '社會': 5, '教育': 6, '财經': 7, '家居': 8, '遊戲': 9, '房産': 10, '時尚': 11, '彩票': 12, '星座': 13}
5.評測名額
評價标準為類别
f1_score
的均值,選手送出結果與實際測試集的類别進行對比,結果越大越好。
6.資料讀取
使用
Pandas
庫完成資料讀取操作,并對賽題資料進行分析。
7.解題思路
賽題思路分析:賽題本質是一個文本分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作,這個是賽題的難點。是以本次賽題的難點是需要對匿名字元進行模組化,進而完成文本分類的過程。由于文本資料是一種典型的非結構化資料,是以可能涉及到
特征提取
和
分類模型
兩個部分。為了減低參賽難度,我們提供了一些解題思路供大家參考:
- 思路1:TF-IDF + 機器學習分類 --- 直接使用TF-IDF對文本提取特征,并使用分類器進行分類。在分類器的選擇上,可以使用SVM、LR、或者XGBoost。
- 思路2:FastText --- FastText是入門款的詞向量,利用Facebook提供的FastText工具,可以快速建構出分類器。
- 思路3:WordVec + 深度學習分類器 --- WordVec是進階款的詞向量,并通過建構深度學習分類完成分類。深度學習分類的網絡結構可以選擇TextCNN、TextRNN或者BiLSTM。
- 思路4:Bert詞向量 --- Bert是高配款的詞向量,具有強大的模組化學習能力。