天天看點

一鍵中文資料增強工具

一鍵中文資料增強工具

向AI轉型的程式員都關注了這個号👇👇👇

機器學習AI算法工程   公衆号:datayx

使用:

pip install nlpcda

https://github.com/425776024/nlpcda

介紹

一鍵中文資料增強工具,支援:

  • 1.随機實體替換
  • 2.近義詞
  • 3.近義近音字替換
  • 4.随機字删除(内部細節:數字時間日期片段,内容不會删)
  • 5.NER類 

    BIO

     資料增強
  • 6.随機置換鄰近的字:研表究明,漢字序順并不定一影響文字的閱讀了解<<是亂序的
  • 7.中文等價字替換(1 一 壹 ①,2 二 貳 ②)
  • 8.翻譯互轉實作的增強
  • 9.使用

    simbert

    做生成式相似句生成

經過細節特殊處理,比如不改變年月日數字,盡量保證不改變原文語義。即使改變也能被猜出來、能被猜出來、能被踩出來、能被菜粗來、被菜粗、能菜粗來.

WIP

  • 基于語音的洗文本過程(類似翻譯)。

    文本

    語音

    >

    語音

    識别回

    文本

    :基于fastspeech2對文本生成語音,基于wav2vec2語音識别文本

例子:

input: 新華社北京消息 > 

fastspeech2

 > x.wav

x.wav > 

wav2vec2

 > output: 新華設北京消息
  • 數字轉換工具(用于文本轉換、中文語音合成需要純中文)

今天是8月29日消息 > 今天是八月二十九日消息

我有1234個蘋果 > 我有一千二百三十四個蘋果

意義

  • 在不改變原文語義的情況下,生成指定數量的訓練語料文本
  • 對NLP模型的泛化性能、對抗攻擊、幹擾波動,有很好的提升作用
  • 參考比賽(本人用此政策+base bert拿到:50+-/1000):https://www.biendata.com/competition/2019diac/

⚠️ 單純刷準确率分數的比賽,用此包一般不會有分數提升

API

1.随機(等價)實體替換

參數:

  • base_file :預設時使用内置(公司)實體。對公司實體進行替換

    是文本檔案路徑,内容形如:

    實體1

    實體2

    ...

    實體n

  • create_num=3 :傳回最多3個增強文本
  • change_rate=0.3 :文本改變率
  • seed :随機種子
一鍵中文資料增強工具

2.随機同義詞替換

參數:

  • base_file :預設時使用内置同義詞表,你可以設定/自己指定更加豐富的同義詞表:

    是文本檔案路徑,内容形如(空格隔開):

    Aa01A0 人類 生人 全人類

    id2 同義詞b1 同義詞b2 ... 同義詞bk

    ...

    idn 同義詞n1 同義詞n2\

  • create_num=3 :傳回最多3個增強文本
  • change_rate=0.3 :文本改變率
  • seed :随機種子
一鍵中文資料增強工具

3.随機近義字替換

參數:

  • base_file :預設時使用内置【同義同音字表】,你可以設定/自己指定更加豐富的同義同音字表:

    是文本檔案路徑,内容形如(\t隔開):

    de 的 地 得 德 嘚 徳 锝 脦 悳 淂 鍀 惪 恴 棏

    拼音2 字b1 字b2 ... 字bk

    ...

    拼音n 字n1 字n2\

  • create_num=3 :傳回最多3個增強文本
  • change_rate=0.3 :文本改變率
  • seed :随機種子
一鍵中文資料增強工具

4.随機字删除

參數:

  • create_num=3 :傳回最多3個增強文本
  • change_rate=0.3 :文本改變率
  • seed :随機種子
一鍵中文資料增強工具

5.NER命名實體 資料增強

輸入标注好的NER資料目錄,和需要增強的标注檔案路徑,和增強的數量,即可一鍵增強

Ner類參數:

  • ner_dir_name='ner_data' : 在ner資料放在ner_data目錄下(裡面很多.txt)
  • ner_dir_name提供的目錄下是各種标注資料檔案,檔案内容以标準的NER 的BIO格式分開
一鍵中文資料增強工具
一鍵中文資料增強工具

6.随機置換鄰近的字

  • char_gram=3:某個字隻和鄰近的3個字交換
  • 内部細節:遇到數字,符号等非中文,不會交換
一鍵中文資料增強工具

7.等價字替換

參數:

  • base_file :預設時使用内置【等價數字字表】,你可以設定/自己指定更加豐富的等價字表(或者使用函數:add_equivalent_list):

    是文本檔案路徑,内容形如((\t)隔開):

    0 零 〇

    1 一 壹 ①

    ...

    9 九 玖 ⑨

  • create_num=3 :傳回最多3個增強文本
  • change_rate=0.3 :文本改變率
  • seed :随機種子
一鍵中文資料增強工具

添加自定義詞典

用于使用之前,增加分詞效果

一鍵中文資料增強工具

8.翻譯互轉實作的增強

1.百度中英翻譯互轉實作的增強 note:

申請你的 appid、secretKey: http://api.fanyi.baidu.com/api/trans

一鍵中文資料增強工具
一鍵中文資料增強工具
一鍵中文資料增強工具

機器學習算法AI大資料技術

 搜尋公衆号添加: datanlp

一鍵中文資料增強工具

長按圖檔,識别二維碼

閱讀過本文的人還看了以下文章:

TensorFlow 2.0深度學習案例實戰

基于40萬表格資料集TableBank,用MaskRCNN做表格檢測

《基于深度學習的自然語言處理》中/英PDF

Deep Learning 中文版初版-周志華團隊

【全套視訊課】最全的目标檢測算法系列講解,通俗易懂!

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門:基于Python的理論與實作》高清中文PDF+源碼

《深度學習:基于Keras的Python實踐》PDF和代碼

特征提取與圖像處理(第二版).pdf

python就業班學習視訊,從入門到實戰項目

2019最新《PyTorch自然語言處理》英、中文版PDF+源碼

《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼

《深度學習之pytorch》pdf+附書源碼

PyTorch深度學習快速實戰入門《pytorch-handbook》

【下載下傳】豆瓣評分8.1,《機器學習實戰:基于Scikit-Learn和TensorFlow》

《Python資料分析與挖掘實戰》PDF+完整源碼

汽車行業完整知識圖譜項目實戰視訊(全23課)

李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材

筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!

《神經網絡與深度學習》最新2018版中英PDF+源碼

将機器學習模型部署為REST API

FashionAI服裝屬性标簽圖像識别Top1-5方案分享

重要開源!CNN-RNN-CTC 實作手寫漢字識别

yolo3 檢測出圖像中的不規則漢字

同樣是機器學習算法工程師,你的面試為什麼過不了?

前海征信大資料算法:風險機率預測

【Keras】完整實作‘交通标志’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類

VGG16遷移學習,實作醫學圖像識别分類工程項目

特征工程(一)

特征工程(二) :文本資料的展開、過濾和分塊

特征工程(三):特征縮放,從詞袋到 TF-IDF

特征工程(四): 類别特征

特征工程(五): PCA 降維

特征工程(六): 非線性特征提取和模型堆疊

特征工程(七):圖像特征提取和深度學習

如何利用全新的決策樹內建級聯結構gcForest做特征工程并打分?

Machine Learning Yearning 中文翻譯稿

螞蟻金服2018秋招-算法工程師(共四面)通過

全球AI挑戰-場景分類的比賽源碼(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(列印收藏)

python+flask搭建CNN線上識别手寫中文網站

中科院Kaggle全球文本比對競賽華人第1名團隊-深度學習與特征工程

不斷更新資源

深度學習、機器學習、資料分析、python

 搜尋公衆号添加: datayx  

一鍵中文資料增強工具