之前查找了很多資料,發現語料準備這塊的方法論很有限,在我看來如果說AI是個學生,語料其實是教科書,是知識的海洋,是AI的糧食,非常重要。
本文主要探讨有充分的語料基礎後對語料進行預處理的辦法。
1,衆包打标簽
2,手工規則提取
關鍵詞特征,使用資料庫進行批量标記。
實體識别後特征選取,使用分詞工具根據詞性來标記。
詞頻統計,對高頻特殊詞單獨标記。
###
Dialogflow邊标記邊訓練,不斷校正測試效果。
Explosion.ai 的 Prodigy , 快速手工标記,背景學習,提供預判,個人覺得并不好用。
3, 專家手工打标簽
推薦Excel,可以與資料庫互傳資料,可以指定标簽詞彙範圍,進行快速輸入。
我總覺得語料工具應該有更大的發展空間,需要做的更好!