天天看點

異常檢測 and 開集識别(1)前言一、開集識别是什麼?二、閉集識别 VS 開集識别總結

文章目錄

  • 前言
  • 一、開集識别是什麼?
  • 二、閉集識别 VS 開集識别
  • 總結

前言

  這節來介紹一下開集識别的定義以及其與閉集識别的差別。希望大家學有所獲~

一、開集識别是什麼?

  開集識别,英文Open Set Recognition,簡寫為OSR。

  背景:在封閉世界中訓練的機器學習模型通常将屬于未知類别的測試樣本錯誤地分類為具有高置信度的已知類别。一些文獻将模型這種過度自信的行為稱為“模型的傲慢”。是以,OSR 于 2013 年被提出,旨在解決這個問題。

  定義:“開集識别”要求多分類器同時達到如下兩個要求:

  • 對測試集中屬于 “已知類别“的圖檔進行準确分類;“已知類别” 代表訓練集中存在的類别。
  • 檢測出”未知”類别, “未知類别”不屬于訓練集中任何類别。

總結來看就是,将屬于已知類的資料識别為具體的類别,将不屬于已知類的資料識别為未知的類别,即異常類。

二、閉集識别 VS 開集識别

  在論文《Open Set Classification for Signal Diagnosis of Machinery Sensor in Industrial Environment》中給出了開集識别與閉集識别的差別:

異常檢測 and 開集識别(1)前言一、開集識别是什麼?二、閉集識别 VS 開集識别總結

其中左邊是閉集識别,右邊是開集識别。

  在閉集假設下,該算法根據訓練集中已有的樣本,為每個類劃分相應的空間。如圖3(a)所示,虛線表示每個類的無界決策邊界。在測試階段,樣本将被配置設定到其中一個空間,但來自未知類别的資料可能被錯誤地分類到一個已知類别(如圖中的紅星符号所示)。

  在開放集場景中,基于訓練集中某些類是未知的假設,算法為每個類确定一個與之相關聯的有限區域。如圖所示,用實線表示的決策邊界是有界的。如果一個樣本位于已知類的一個區域内,那麼它将被辨別為該類。另一方面,如果它位于一個與任何已知類沒有關聯的空間中,那麼它将被拒絕作為一個未知類。在這種情況下,算法可以看作是n+1分類器,其中n表示訓練階段已知類的數量,1表示未知類。

  總結來看,閉集識别是根據已知分類進行判斷,不會産生别的結果,而開集識别可以産生新的一類,并檢測出異常。

總結

  以上就是要介紹的開集識别的定義,希望大家有所收獲~

  參考網站如下:

  離群?異常?新類?開集?分布外檢測?一文搞懂其間異同!

繼續閱讀