天天看點

中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型

本章根據不同的應用場合設計了兩種不同的主動學習模型,對劣質資料進行清洗。

由于主動學習是以少量的有标記樣本作為初始訓練集來标記大量的無标記樣本,是以,我們在無标記大量樣本中進行資訊評估,選出價值更高的一類樣本利用衆包平台進行人工标記。根據獲得的人工标記是否加入初始訓練集進行再次訓練,我們将基于衆包的主動學習模型分為直接主動學習模型和互動主動學習模型兩種。我們将分别詳細闡述在不同的模型中,如何解決具體的資料清洗問題。

針對直接法我們的基本思想是隻采用初始訓練集來訓練我們的學習模型,其模型見圖1。該方法适用于一些初始訓練集資訊量就已經非常有效的情況,還有對精度要求非常高而使訓練集的記錄隻能是正确記錄的情況。

中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型

直接主動學習算法概述如下。

中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型
中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型
中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型
中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型
中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型
中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型

互動主動學習模型是指将衆包标記過的記錄回報到訓練集,對學習元件進行重新訓練。在衆包準确率高和效率高的情況下這種方法能夠在一定程度上提高學習元件的準确率。互動主動學習模型的模型如圖2所示。

中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型

下面給出互動主動學習算法概述。

(1)學習模型的初始化。這一階段和直接主動學習模型是一緻的(1~2行)。

(2)選擇待标記記錄。對每個候選修複記錄,每個分量分類器都給出其預測結果,最後根據各個分量分類器的判決結果選擇資訊價值最大的記錄進行修複。這個階段主要是利用候選修複記錄在各個分量分類器中的不一緻分數來排序,将不一緻分數最高的n個記錄作為待标記記錄。本文通過三種方法來衡量不一緻分數。這n個執行個體經過标記加入到訓練集後可以最大程度加強學習模型分類的正确性(3~4行)。

(3)結果 回報和學習模型重訓練。在這個階段,衆包平台上的勞工對學習模型挑選出來的待标記記錄進行标記,收集衆包平台的結果,通過優化算法得到已标記記錄。學習模型重新訓練,去除掉那些已經得到标記的記錄,在剩下的記錄産生待标記記錄集合。由于階段2中選擇了價值最大的記錄進行标記,是以在下次疊代中已标記記錄加入到初始訓練集中進行再訓練後,學習模型的分類正确性将得到最大加強(5~8行)。

(4)循環訓練。重複階段1~3,直到已經達到一定準确率Q,則資料集的修複完成(9~10行)。

中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型
中國人工智能學會通訊——基于衆包的資料清洗模型研究 2 基于衆包的主動學習模型

繼續閱讀