Datawhale - 入門NLP之新聞文本分類 - task1 賽題了解學習背景1.賽題了解2.學習目标3.賽題資料4.資料标簽5.評測名額6.資料讀取7.解題思路

2023-06-26 14:16:24

PS. 轉載來源：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281897.0.0.209439a9tiEEEt&postId=118252

學習背景

1.賽題了解

2.學習目标

3.賽題資料

4.資料标簽

5.評測名額

6.資料讀取

7.解題思路

學習背景

本次學習背景是，在datawhale組織中報名學習：入門NLP（以新聞文本分類賽事進行學習）。

學習過程中，逐漸記錄心得和學習的收獲！！！

1.賽題了解

賽題名稱：零基礎入門NLP之新聞文本分類。
賽題目标：通過這道賽題走入自然語言處理的世界，接觸NLP的預處理、模型建構和模型訓練等知識點。
賽題任務：賽題以自然語言處理為背景，要求選手對新聞文本進行分類，這是一個典型的字元識别問題。

2.學習目标

了解賽題背景與賽題資料
完成賽題報名和資料下載下傳，了解賽題的解題思路

3.賽題資料

賽題以匿名處理後的新聞資料為賽題資料，資料集報名後可見并可下載下傳。賽題資料為新聞文本，并按照字元級别進行匿名處理。整合劃分出14個候選分類類别：财經、彩票、房産、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂的文本資料。其中：訓練集20w條樣本，測試集A包括5w條樣本，測試集B包括5w條樣本。（注：為了預防選手人工标注測試集的情況，我們将比賽資料的文本按照字元級别進行了匿名處理）。

4.資料标簽

處理後的賽題訓練資料如下：

Datawhale - 入門NLP之新聞文本分類 - task1 賽題了解學習背景1.賽題了解2.學習目标3.賽題資料4.資料标簽5.評測名額6.資料讀取7.解題思路

在資料集中标簽的對應的關系如下：{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時政': 4, '社會': 5, '教育': 6, '财經': 7, '家居': 8, '遊戲': 9, '房産': 10, '時尚': 11, '彩票': 12, '星座': 13}

5.評測名額

評價标準為類别

f1_score

的均值，選手送出結果與實際測試集的類别進行對比，結果越大越好。

6.資料讀取

使用

Pandas

庫完成資料讀取操作，并對賽題資料進行分析。

7.解題思路

賽題思路分析：賽題本質是一個文本分類問題，需要根據每句的字元進行分類。但賽題給出的資料是匿名化的，不能直接使用中文分詞等操作，這個是賽題的難點。是以本次賽題的難點是需要對匿名字元進行模組化，進而完成文本分類的過程。由于文本資料是一種典型的非結構化資料，是以可能涉及到

特征提取

和

分類模型

兩個部分。為了減低參賽難度，我們提供了一些解題思路供大家參考：

思路1：TF-IDF + 機器學習分類 --- 直接使用TF-IDF對文本提取特征，并使用分類器進行分類。在分類器的選擇上，可以使用SVM、LR、或者XGBoost。
思路2：FastText --- FastText是入門款的詞向量，利用Facebook提供的FastText工具，可以快速建構出分類器。
思路3：WordVec + 深度學習分類器 --- WordVec是進階款的詞向量，并通過建構深度學習分類完成分類。深度學習分類的網絡結構可以選擇TextCNN、TextRNN或者BiLSTM。
思路4：Bert詞向量 --- Bert是高配款的詞向量，具有強大的模組化學習能力。

Datawhale - 入門NLP之新聞文本分類 - task1 賽題了解學習背景1.賽題了解2.學習目标3.賽題資料4.資料标簽5.評測名額6.資料讀取7.解題思路

學習背景

1.賽題了解

2.學習目标

3.賽題資料

4.資料标簽

5.評測名額

6.資料讀取

7.解題思路

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普