CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

計算機視覺和模式識别領域頂級會議CVPR正在美國加州舉行，釋出交流來自全球的工業界與學術界最新研究成果。期間，亮風台公開大規模單目标跟蹤高品質資料集LaSOT，包含超過352萬幀手工标注的圖檔和1400個視訊，這也是目前為止最大的擁有密集标注的單目标跟蹤資料集。

論文《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》詳細闡述了LaSOT資料集的構造原理和評估方法，由亮風台、華南理工大學、美圖-亮風台聯合實驗室等機關共同完成，收錄于CVPR 2019。此外，亮風台另一研發方向投影AR新成果入選CVPR 2019 oral。

LaSOT 貢獻

視覺跟蹤是計算機視覺中最重要的問題之一，其應用領域包括視訊監控、機器人技術、人機互動等。随着跟蹤領域的巨大進步，人們提出了許多算法。在這一過程中，跟蹤基準對客觀評估起到了至關重要的作用。LaSOT的推出，也是希望為行業提供一個大規模的、專門的、高品質的基準，用于深度跟蹤訓練和跟蹤算法的真實評估。

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

圖1：常用跟蹤資料集統計示意圖。包括OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017和LaSOT。圓直徑與資料集的總幀數數成比例。所提出的LaSOT比所有其他基準都要大，并且專注于長期跟蹤。

觀察和比較不同的跟蹤算法發現，其進一步發展和評估受到現有評測集的限制，存在的問題主要包括：

規模小。現有資料集很少有超過400個序列，由于缺乏大規模的跟蹤資料集，很難使用跟蹤特定視訊訓練深度跟蹤器。
短時跟蹤。理想的跟蹤器能夠在相對較長的時間内定位目标，目标可能消失并重新進入視圖。然而，大多數現有的基準都集中在短期跟蹤上，其中平均序列長度小于600幀（即20秒左右），而且目标幾乎總是出現在視訊幀中。
類别偏見。一個穩健的跟蹤系統應該表現出對目标所屬類别的不敏感性，這意味着在訓練和評估跟蹤算法時都應該抑制類别偏差（或類别不平衡）。然而，現有的基準通常隻包含幾個類别，視訊數量不平衡。

許多資料集被提議處理上述問題，然而，并沒有解決所有的問題。

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

基于上述動機，亮風台為社群提供了一個新的大型單目标跟蹤（LaSOT）基準，并提供了多方面的貢獻：

LaSOT包含1400個視訊，每個序列平均2512幀。每一幀都經過仔細檢查和手動标記，并在需要時對結果進行目視檢查和糾正。這樣，可以生成大約352萬個高品質的邊界框标注。

此外，LaSOT包含70個類别，每個類别包含20個序列。據了解，LaSOT是迄今為止最大的具有高品質手動密集注釋的對象跟蹤資料集。

與之前的資料集不同，LaSOT提供了可視化邊界框注釋和豐富的自然語言規範，這些規範最近被證明對各種視覺任務都是有益的，包括視覺跟蹤。這樣做的目标是鼓勵和促進探索內建視覺和語言功能，以實作強大的跟蹤性能。
為了評估現有的跟蹤器，并為将來在LaSOT上的比較提供廣泛的基準，團隊在不同的協定下評估了35個具有代表性的跟蹤器，并使用不同的名額分析其性能。

LaSOT大規模多樣化的資料采集

LaSOT資料集的建構遵循大規模、高品質的密集注釋、長期跟蹤、類别平衡和綜合标記五個原則。

LaSOT基準資料采集涵蓋了各種不同背景下的各種對象類别，包含70個對象類别。大多數類别是從ImageNet的1000個類别中選擇的，但少數例外（如無人機）是為流行的跟蹤應用程式精心選擇的。以往的資料集通常含有的類别少于30個，并且一般分布不均勻。相比之下，LaSOT為每個類别提供相同數量的序列，以減輕潛在的類别偏差。

在确定了LaSOT中的70個對象類别之後，研究人員從YouTube中搜尋了每個類的視訊。最初，收集了5000多個視訊。考慮到追蹤視訊的品質和LaSOT的設計原則，挑選了1400個視訊。但是，由于大量無關内容，這1400個序列不能立即用于跟蹤任務。例如，對于個人類别的視訊（例如，運動員），它通常在開始時包含每個運動員的一些介紹内容，這不适合跟蹤。是以，研究人員仔細過濾掉每個視訊中不相關的内容，并保留一個可用于跟蹤的剪輯。此外，LaSOT的每一個分類都包含20個目标，反映了自然場景中的分類平衡和多樣性。

最終，研究人員通過收集1400個序列和352萬幀的YouTube視訊，在Creative Commons許可下，編譯了一個大規模的資料集。LaSOT的平均視訊長度為2512幀（即30幀每秒84秒）。最短的視訊包含1000幀（即33秒），最長的視訊包含11397幀（即378秒）。

LaSOT提供可視化邊界框标注

為了提供一緻的邊界框标注，團隊還定義了一個确定性标注政策。對于具有特定跟蹤目标的視訊，對于每個幀，如果目标對象出現在幀中，則标注者會手動繪制/編輯其邊界框，使其成為最緊的右邊界框，以适合目标的任何可見部分；否則，标注者會向幀提供一個“目标不存在”的标簽，無論是不可見還是完全遮擋。請注意，如任何其他資料集中所觀察到的那樣，這種政策不能保證最小化框中的背景區域。然而，該政策确實提供了一個一緻的标注，這對于學習物體的運動是相對穩定的。

雖然上述政策在大多數情況下都很有效，但也存在例外情況。有些物體，例如老鼠，可能有細長和高度變形的部分，例如尾巴，這不僅會在物體的外觀和形狀上産生嚴重的噪聲，而且對目标物體的定位提供很少的資訊。在LaSOT中仔細識别這些對象和相關的視訊，并為它們的注釋設計特定的規則（例如，在繪制它們時不包括老鼠的尾部）。

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

圖2：LaSOT示例序列和标注

序列的自然語言規範由描述目标的顔色、行為和環境的句子表示。對于LaSOT，為所有視訊提供1400個描述語句。請注意，語言描述旨在為跟蹤提供輔助幫助。例如，如果追蹤器生成進一步處理的建議，那麼語言規範可以作為全局語義指導，幫助減少它們之間的模糊性。

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

建構高品質密集跟蹤資料集的最大努力顯然是手動标記、雙重檢查和糾錯。為了完成這項任務，亮風台組建了一個注釋小組，包括幾個在相關領域工作的博士生和大約10名志願者。

35個代表性跟蹤器的評估

沒有對如何使用LaSOT進行限制，提出了兩種協定來評估跟蹤算法，并進行相應的評估。

方案一：使用1400個序列來評估跟蹤性能。研究人員可以使用除了LaSOT中的序列以外的任何序列來開發跟蹤算法。方案一旨在對跟蹤器進行大規模評估。

方案二：将LaSOT劃分為訓練和測試子集。根據80/20原則（即帕累托原則），從每類20個視訊中選出16個進行教育訓練，其餘的進行測試。具體來說，訓練子集包含1120個視訊，2.83m幀，測試子集包含280個序列，690k幀。跟蹤程式的評估在測試子集上執行。方案二的目标是同時提供一大套視訊用于訓練和評估跟蹤器。

根據流行的協定（如OTB-2015[53]），使用OPE作為量化評估标準，并測量兩個協定下不同跟蹤算法的精度、标準化精度和成功率。評估了LaSOT上的35種算法，以提供廣泛客觀的基準，Tab. 3按時間順序總結這些跟蹤器及其表示方案和搜尋政策。

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

表3：已評估跟蹤程式的摘要。

方案一評估結果

方案一旨在對LaSot的1400個視訊進行大規模評估。每個跟蹤器都按原樣用于評估，沒有任何修改。使用精度、标準化精度和成功率在OPE中報告評估結果，

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

圖3：利用精度、歸一化精度和成功率對一号方案下的算法量化評估。

圖4：在協定I下，追蹤器在三個最具挑戰性的屬性上的代表性結果。

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

圖5：六大典型挑戰序列上的的定性評價結果。

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

方案二評估結果

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

圖6：使用精度、标準化精度和成功率對方案II下的跟蹤算法評估。

根據方案二，将LaSOT分為訓練集和測試集。研究人員可以利用訓練集中的序列來開發他們的跟蹤器，并評估他們在測試集中的表現。為了提供測試集的基線和比較，評估了35種跟蹤算法。每個跟蹤器都被用于評估，沒有任何修改或再教育訓練。使用精度、歸一化精度和成功率的評價結果如圖6所示。

除了對每一種跟蹤算法進行評估外，還對兩種具有代表性的深跟蹤算法MDNET[42]和SIAMFC進行了重新教育訓練，并對其進行了評估。評估結果表明，這些跟蹤器在沒有重訓練的情況下具有相似的性能。一個潛在的原因是重新教育訓練可能和原作者使用配置不同。

文中又對SiamFC的LaSOT訓練集進行了再教育訓練，以證明使用更多的資料如何改進基于深度學習的跟蹤器。Tab. 4報告了OTB-2013和OTB-2015的結果，并與在ImageNet視訊上教育訓練的原始SIAMFC的性能進行了比較。請注意，論文中使用彩色圖像進行訓練，并應用3個比例的金字塔進行跟蹤，即SIAMFC-3S（彩色）。所有訓練參數和跟蹤在這兩個實驗中保持不變。最後在兩個評測集上觀察到了一緻的性能提升，顯示了針對深度追蹤器的特定大規模訓練集的重要性。

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

表4在LaSOT上對SiamFC進行再訓練

LaSOT首頁：https://cis.temple.edu/lasot/

資料集下載下傳：https://cis.temple.edu/lasot/download.html

算法測評和工具包：https://cis.temple.edu/lasot/results.html

論文：https://arxiv.org/abs/1809.07845

CVPR 2019：亮風台推出全球最大單目标跟蹤資料集LaSOT

繼續閱讀

回顧人工智能大爆炸的引爆點（The origin of the AI big bang）

alphaGo的前世今生，并不那麼玄乎

AlphaGo：從直覺學習到整體知識

AI修複後的王祖賢和林青霞，真的是人間絕色啊

AI空前火爆，“智能時代”真的到來了嗎？

【初創公司系列】Runway - 機器學習和人工智能徹底改變藝術與創意世界

AI—資料中毒

英國最新報告：40% AI公司其實沒用任何AI技術40%的AI公司是假AI？打上AI标簽，投資能多拿一半AI技術落地應用榜

阿裡文娛永叔：利器or成本損耗？算法不是黑匣子

感覺機(Perceptron) Python實作scikit-learn 方法

跨平台rsa簽名與驗簽

沒錯! AI已經開始“引領”服裝潮流趨勢了

用Matlab搞計算機視覺是怎樣的體驗？

人工智能有朝一日真的能取代人類教師嗎?

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

人工智能如何有效地運用于自然語言處理