
向AI轉型的程式員都關注了這個号👇👇👇
機器學習AI算法工程 公衆号:datayx
使用:
pip install nlpcda
https://github.com/425776024/nlpcda
介紹
一鍵中文資料增強工具,支援:
- 1.随機實體替換
- 2.近義詞
- 3.近義近音字替換
- 4.随機字删除(内部細節:數字時間日期片段,内容不會删)
- 5.NER類
資料增強BIO
- 6.随機置換鄰近的字:研表究明,漢字序順并不定一影響文字的閱讀了解<<是亂序的
- 7.中文等價字替換(1 一 壹 ①,2 二 貳 ②)
- 8.翻譯互轉實作的增強
- 9.使用
做生成式相似句生成simbert
經過細節特殊處理,比如不改變年月日數字,盡量保證不改變原文語義。即使改變也能被猜出來、能被猜出來、能被踩出來、能被菜粗來、被菜粗、能菜粗來.
WIP
- 基于語音的洗文本過程(類似翻譯)。
轉文本
>語音
識别回語音
:基于fastspeech2對文本生成語音,基于wav2vec2語音識别文本文本
例子:
input: 新華社北京消息 >
fastspeech2
> x.wav
x.wav >
> output: 新華設北京消息
wav2vec2
- 數字轉換工具(用于文本轉換、中文語音合成需要純中文)
今天是8月29日消息 > 今天是八月二十九日消息
我有1234個蘋果 > 我有一千二百三十四個蘋果
意義
- 在不改變原文語義的情況下,生成指定數量的訓練語料文本
- 對NLP模型的泛化性能、對抗攻擊、幹擾波動,有很好的提升作用
- 參考比賽(本人用此政策+base bert拿到:50+-/1000):https://www.biendata.com/competition/2019diac/
⚠️ 單純刷準确率分數的比賽,用此包一般不會有分數提升
API
1.随機(等價)實體替換
參數:
-
base_file :預設時使用内置(公司)實體。對公司實體進行替換
是文本檔案路徑,内容形如:
實體1
實體2
...
實體n
- create_num=3 :傳回最多3個增強文本
- change_rate=0.3 :文本改變率
- seed :随機種子
2.随機同義詞替換
參數:
-
base_file :預設時使用内置同義詞表,你可以設定/自己指定更加豐富的同義詞表:
是文本檔案路徑,内容形如(空格隔開):
Aa01A0 人類 生人 全人類
id2 同義詞b1 同義詞b2 ... 同義詞bk
...
idn 同義詞n1 同義詞n2\
- create_num=3 :傳回最多3個增強文本
- change_rate=0.3 :文本改變率
- seed :随機種子
3.随機近義字替換
參數:
-
base_file :預設時使用内置【同義同音字表】,你可以設定/自己指定更加豐富的同義同音字表:
是文本檔案路徑,内容形如(\t隔開):
de 的 地 得 德 嘚 徳 锝 脦 悳 淂 鍀 惪 恴 棏
拼音2 字b1 字b2 ... 字bk
...
拼音n 字n1 字n2\
- create_num=3 :傳回最多3個增強文本
- change_rate=0.3 :文本改變率
- seed :随機種子
4.随機字删除
參數:
- create_num=3 :傳回最多3個增強文本
- change_rate=0.3 :文本改變率
- seed :随機種子
5.NER命名實體 資料增強
輸入标注好的NER資料目錄,和需要增強的标注檔案路徑,和增強的數量,即可一鍵增強
Ner類參數:
- ner_dir_name='ner_data' : 在ner資料放在ner_data目錄下(裡面很多.txt)
- ner_dir_name提供的目錄下是各種标注資料檔案,檔案内容以标準的NER 的BIO格式分開
6.随機置換鄰近的字
- char_gram=3:某個字隻和鄰近的3個字交換
- 内部細節:遇到數字,符号等非中文,不會交換
7.等價字替換
參數:
-
base_file :預設時使用内置【等價數字字表】,你可以設定/自己指定更加豐富的等價字表(或者使用函數:add_equivalent_list):
是文本檔案路徑,内容形如((\t)隔開):
0 零 〇
1 一 壹 ①
...
9 九 玖 ⑨
- create_num=3 :傳回最多3個增強文本
- change_rate=0.3 :文本改變率
- seed :随機種子
添加自定義詞典
用于使用之前,增加分詞效果
8.翻譯互轉實作的增強
1.百度中英翻譯互轉實作的增強 note:
申請你的 appid、secretKey: http://api.fanyi.baidu.com/api/trans
機器學習算法AI大資料技術
搜尋公衆号添加: datanlp
長按圖檔,識别二維碼
閱讀過本文的人還看了以下文章:
TensorFlow 2.0深度學習案例實戰
基于40萬表格資料集TableBank,用MaskRCNN做表格檢測
《基于深度學習的自然語言處理》中/英PDF
Deep Learning 中文版初版-周志華團隊
【全套視訊課】最全的目标檢測算法系列講解,通俗易懂!
《美團機器學習實踐》_美團算法團隊.pdf
《深度學習入門:基于Python的理論與實作》高清中文PDF+源碼
《深度學習:基于Keras的Python實踐》PDF和代碼
特征提取與圖像處理(第二版).pdf
python就業班學習視訊,從入門到實戰項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
《深度學習之pytorch》pdf+附書源碼
PyTorch深度學習快速實戰入門《pytorch-handbook》
【下載下傳】豆瓣評分8.1,《機器學習實戰:基于Scikit-Learn和TensorFlow》
《Python資料分析與挖掘實戰》PDF+完整源碼
汽車行業完整知識圖譜項目實戰視訊(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!
《神經網絡與深度學習》最新2018版中英PDF+源碼
将機器學習模型部署為REST API
FashionAI服裝屬性标簽圖像識别Top1-5方案分享
重要開源!CNN-RNN-CTC 實作手寫漢字識别
yolo3 檢測出圖像中的不規則漢字
同樣是機器學習算法工程師,你的面試為什麼過不了?
前海征信大資料算法:風險機率預測
【Keras】完整實作‘交通标志’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實作醫學圖像識别分類工程項目
特征工程(一)
特征工程(二) :文本資料的展開、過濾和分塊
特征工程(三):特征縮放,從詞袋到 TF-IDF
特征工程(四): 類别特征
特征工程(五): PCA 降維
特征工程(六): 非線性特征提取和模型堆疊
特征工程(七):圖像特征提取和深度學習
如何利用全新的決策樹內建級聯結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
螞蟻金服2018秋招-算法工程師(共四面)通過
全球AI挑戰-場景分類的比賽源碼(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(列印收藏)
python+flask搭建CNN線上識别手寫中文網站
中科院Kaggle全球文本比對競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、資料分析、python
搜尋公衆号添加: datayx