天天看點

創新奇智榮獲CVPR2023細粒度視覺挑戰賽兩項冠軍

作者:量子位

CVPR作為全球頂級計算機視覺會議,每年都吸引很多全球知名企業及研究機構參加。近日,創新奇智團隊在CVPR 2023細粒度視覺分類(FGVC)賽事榮獲PlantTraits和SnakeCLEF賽道兩項冠軍,彰顯了在細粒度視覺分類領域的強大技術實力。

FGVC(Fine-Grained Visual Categorization)是CVPR主辦的細粒度視覺分類workshop競賽。本屆CVPR-FGVC10研讨會由丹麥哥本哈根大學、美國加州理工學院、英國愛丁堡大學、美國麻省理工學院、英國倫敦大學學院、捷克共和國皮爾森西波西米亞大學、北京大學、Meta(Facebook)、Google等知名高校及機構聯合主辦。

圖像分類在計算機視覺領域占據着重要地位,是最基礎和應用最廣泛的任務之一,特别是細粒度分類,要求在區分出基本類别的基礎上,進行更精細的子類劃分,如區分植物的種類、車的款式、狗的品種等。但在訓練樣本資料有限且類别高度相似的領域中,現有技術的表現并不盡如人意。目前,細粒度圖像分類成為計算機視覺領域的一個熱門研究課題,在工業界和實際生活中有着廣泛的業務需求和應用場景。

PlantTraits賽題介紹及技術方案

PlantTraits 2023挑戰賽由德國萊比錫大學地球系統研究遙感中心(RSC4Earth, Leipzig University, Germany)主辦,旨在探索從有限的植物性狀資料中預測全球範圍内的植物性狀,以及整個生态系統将如何對氣候變化做出反應。賽事要求利用植物的圖像并結合植物生長環境與植物形狀之間的關系預測出植物性狀。賽題給定植物圖像資料、植物生長環境資訊以及植物性狀的均值與方差進行模型訓練,要求參賽者使用深度學習的回歸模型從植物照片中預測植物屬性,比如長度、發芽率等30餘項屬性。主辦方将根據各參賽隊伍送出的植物性狀檔案計算出平均R2進行排名。

該任務的一大難點在于資料量極少,單一類别植物至多隻有6張圖像與之對應。

為了解決上述問題,創新奇智團隊選取ConvNeXtV2模型作為骨幹網絡(backbone)。考慮到該任務為植物細粒度回歸任務,是以首先采用遷移學習(Transfer Learning)方法,在iNaturelist資料集上對該模型進行預訓練,有效提升了該模型在植物特征提取方面的能力。同時,為了有效地利用植物生長環境等資料,團隊對這些meta資料進行了歸一化。在通過ConvNeXtV2網絡提取出圖像特征和将歸一化後的meta資料拼接到圖像特征之後,然後再通過多層感覺機(MLP)對特征進行充分融合,輸出植物的類别機率值。

在整個處理過程中,團隊使用不同的機率進行資料添加和模型參數的丢棄,以獲得多個模型的推理結果,并将輸出的相應類别的機率值取平均以獲得這些模型的最終分類結果。最終根據植物的類别确定出植物性狀分布的範圍後,再利用其均值進行後處理替換便得到植物30餘項屬性的數值。

創新奇智榮獲CVPR2023細粒度視覺挑戰賽兩項冠軍

SnakeCLEF2023賽題介紹及技術方案

SnakeCLEF2023由捷克西波西米亞大學(University of West Bohemia, Czechia)主辦,旨在推進從圖像和中繼資料中識别蛇種的魯棒算法的開發。這一目标在生物多樣性保護領域具有深遠意義,也是保護人類生存健康的重要方面。賽事要求從給定的真實蛇種觀察資料集(對單一個體有多張照片和相應的中繼資料)中訓練一個分類模型,對蛇的種類進行預測,且模型大小限制為最大1GB。主辦方使用參賽隊伍送出的模型和推理代碼在私有資料上進行推理,以確定結果的可複現性,最終根據推理出的結果計算識别得分并計算排名。得分由分類準确率Acc、F1和有毒物種識别得分共同組成。

本次任務主要存在以下難點:1)細粒度圖像識别:識别蛇種類的困難在于外觀上類内部的高差異性以及類與類之間的低差異性,這取決于地理位置、顔色變化、性别或年齡。同時,許多物種在視覺上與其他物種相似(例如拟态);2)長尾分布:訓練集表現出顯著的長尾分布問題,樣本主要集中在少數類别上,部分類别樣本數較少;3)中繼資料的使用:如何利用主辦方提供的中繼資料提升模型的分類能力;4)識别有毒物種的魯棒性:正确地識别出有毒物種,并盡量避免将有毒物種識别為無毒物種;5)模型大小最大限制為1GB。

為了解決上述問題,創新奇智團隊選取timm開源模型庫中的ConvNeXtV2模型作為骨幹網絡,提取圖像的深層特征并與淺層特征進行融合。為了最大程度地利用訓練資料,團隊将圖像分辨率調整為512x512,并對圖像進行更魯棒的資料增強,如随機裁剪、随機翻轉、對比度和飽和度增強以及CutMix等。針對資料集的長尾分布問題,使用長尾執行個體分割中的Seesaw損失,減輕對尾部類别的壓倒性懲罰,并補償因懲罰減少而導緻的錯誤分類風險。

此外,團隊利用中繼資料中的國家地區代碼構造文本提示詞,輸入到CLIP文本編碼器中擷取文本特征,與圖像特征進行融合,并且團隊設計了一個輕量的先驗模型,計算樣本使用文本特征進行分類的先驗機率,在後處理階段與骨幹模型一起計算聯合機率以提高模型的魯棒性。通過這種方式,中繼資料可以提供圖像中所缺乏的可靠地理位置資訊,使模型如同人類專家一樣綜合多方面的資訊之後進行判斷。

創新奇智榮獲CVPR2023細粒度視覺挑戰賽兩項冠軍

在後處理階段,團隊專門針對有毒物種的識别進行魯棒性處理。對于模型針對某一樣本計算出其在類别上的機率分布,在分類過程中,一般采用機率最大值對應的類别作為預測類别。這是不夠魯棒的,因為當模型對某一樣本預測的置信度較低時,其機率最大值也同樣較低。是以,對某一樣本,當其預測類别的置信度較低時,我們對其機率分布進行降序排序,如果其中前五個機率對應的類别存在有毒物種時,則認為這個樣本是有毒物種。通過這種方式,可以盡可能地防止有毒物種的誤判,也更符合人的直覺。

成果落地應用

細粒度視覺分類在制造、零售、文娛等行業應用廣泛,比如識别産品的瑕疵種類、識别身邊的動物/植物等。

作為參賽隊伍教練,這也是創新奇智CTO張發恩在本屆CVPR指導獲得的第二個細粒度視覺分類挑戰賽冠軍,他指出:“作為一家專注于人工智能商業化落地的企業,創新奇智不僅關注學術研究和前沿技術發展趨勢,也積極地将研究成果應用于實際業務場景中。未來,我們将繼續發揮在細粒度視覺分類領域的優勢,不斷提升我們的技術實力和産品服務水準,推動前沿人工智能技術在傳統制造業的應用落地。”

*本文獲刊轉載,觀點僅為作者所有

— 完 —

繼續閱讀