多示例學習(Multi Instance Learning)的概念
根據訓練資料的歧義性大小,大緻可以把在該領域進行的研究劃分為三種學習架構:監督學習、非監督學習和強化學習。監督學習的樣本示例帶有标記;非監督學習的樣本示例沒有标記,因而該學習模型的歧義性較大。多示例學習可以認為是與三種傳統學習架構并列的第四種學習架構。由Dietterich等人于1997年提出,提出的背景是通過一項對分子活性的研究,文章是"Solving the Multiple-Instance Problem with Axis Parallel Rectangles" ,下面就對多示例問題做一個概念性的介紹。 多示例學習可以被描述為:假設訓練資料集中的每個資料是一個包(Bag),每個包都是一個示例(instance)的集合,每個包都有一個訓練标記,而包中的示例是沒有标記的;如果包中至少存在一個正标記的示例,則包被賦予正标記;而對于一個有負标記的包,其中所有的示例均為負标記。(這裡說包中的示例沒有标記,而後面又說包中至少存在一個正标記的示例時包為正标記包,是相對訓練而言的,也就是說訓練的時候是沒有給示例标記的,隻是給了包的标記,但是示例的标記是确實存在的,存在正負示例來判斷正負類别)。通過定義可以看出,與監督學習相比,多示例學習資料集中的樣本示例的标記是未知的,而監督學習的訓練樣本集中,每個示例都有一個一已知的标記;與非監督學習相比,多示例學習僅僅隻有包的标記是已知的,而非監督學習樣本所有示例均沒有标記。但是多示例學習有個特點就是它廣泛存在真實的世界中,潛在的應用前景非常大。 下面講到的内容是Dietterich在97年的那篇文章中的一些了解,感興趣的可以接着看,知道在什麼背景下得出的多示例學習問題,是怎樣通過分子活性得出的。分子活性判斷可以用來制藥,即判斷哪些分子活性高,哪些分子活性低,但是有個問題就是同一個分子會有不同形狀(化學上學過),而生物化學家目前隻知道哪些分子适于制藥,并不知道具體分子的哪一種形狀起到了決定性作用。如果直接使用監督學習架構,将适于制藥的分子的所有形狀都作為正例,那麼正例中的噪聲會很高,因為适于制藥的分子的一些形狀是不适于制藥的,是以簡單認為适于制藥的分子所有形狀都是适合制藥的,會導緻訓練資料集中存在大量假正例(false positive),使學習過程受到嚴重的幹擾, 為了解決這些困難,Dietterich等人采用基于射線的分子外形表示方法。具體的可以參考論文,一個簡單的例子就是下圖所示:

依次記錄由遠點發出的8條射線與曲線的交點與原點之間的距離,得到一個8維的向量(x1,x2,....x8),論文中對分子的每個形狀都表示成了166維的特征向量,即包中的每個示例是一個166維的特征向量。 國内對多示例學習研究的大牛就是南大的周志華教授了,他發了很多這方面的文章, 而且周老師的文章都非常自然,非常容易讀懂,寫的非常好,不愧是大牛,已經深入淺出到了爐火純青的地步了,大家可以去首頁好好膜拜下,想細緻了解的就好好讀他的文章就行了。
[1] 楊志武,《多示例學習算法研究》,碩士論文 [2] T.G. Dietterich, R.H. Lathrop, and L.T. Perez, “Solving the Multiple-Instance Problem with Axis Parallel Rectangles,”Artificial Intelligence,vol. 89, pp. 31-71, 1997.