天天看點

語料準備

之前查找了很多資料,發現語料準備這塊的方法論很有限,在我看來如果說AI是個學生,語料其實是教科書,是知識的海洋,是AI的糧食,非常重要。

本文主要探讨有充分的語料基礎後對語料進行預處理的辦法。

1,衆包打标簽

2,手工規則提取

關鍵詞特征,使用資料庫進行批量标記。

實體識别後特征選取,使用分詞工具根據詞性來标記。

詞頻統計,對高頻特殊詞單獨标記。

###

Dialogflow

邊标記邊訓練,不斷校正測試效果。

Explosion.ai 的 Prodigy , 快速手工标記,背景學習,提供預判,個人覺得并不好用。

3, 專家手工打标簽

推薦Excel,可以與資料庫互傳資料,可以指定标簽詞彙範圍,進行快速輸入。

我總覺得語料工具應該有更大的發展空間,需要做的更好!