天天看點

用圖檔搜尋視訊是一種什麼樣的技術? | 硬創公開課

今年8月,雷鋒網(公衆号:雷鋒網)将在深圳舉辦盛況空前的“全球人工智能與機器人峰會”(ccf-gair),屆時雷鋒網将釋出“人工智能&機器人top25創新企業榜”榜單。目前,我們正在逐一拜訪人工智能、機器人領域的相關公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請聯系:[email protected]。雷鋒網

各大搜尋引擎已經先後推出了以圖搜圖的功能,它可以實作輸入與圖檔名稱或内容相似的關鍵字就可以檢索到相應的圖檔,例如電商購物、微信掃一掃以及百度識圖等都使用了這一技術。但是,随着視訊内容的走紅,業界又衍生出了一種新的技術——以圖搜視訊,即你能夠通過這一技術在海量視訊中搜尋到目标視訊。

那麼問題來了,這又是一種什麼樣的技術?它和以圖搜圖的差別在哪?有什麼技術難點?

為此本期硬創公開課邀請了圖麟資訊科技ceo魏京京來為大家解答這些疑惑。

用圖檔搜尋視訊是一種什麼樣的技術? | 硬創公開課

魏京京:中國科學技術大學計算機專業大學/碩士,畢業後就職于ibm北京研發實驗室和美國矽谷研發實驗室,擔任工程師和産品經理,随後就職于咨詢公司和投資公司,曾在同創偉業做過4年的風險投資,擔任投資總監。現為圖麟資訊科技ceo。

魏京京:圖麟科技的核心技術團隊在圖像處理、識别領域有十幾年的經驗。現在主要專注于海量圖像/視訊的搜尋、識别、智能分析處理,核心算法團隊來自于全球前沿的圖像視訊處理技術研究機構,具有超過15年的圖像視訊研究經驗。

在以圖搜視訊領域,我們開創了以視訊為機關來提取特征,并實作以圖搜視訊技術的實際商用。

魏京京:先說作用,以圖搜視訊解決了目前針對海量視訊内容的精準快速檢索的硬傷。

随着圖檔和視訊等資料在我們日常生活中、實際應用中海量爆發,就像當年文字網際網路的爆發一樣,我們需要一個有效的方式對圖像和視訊内容進行快速篩選和擷取,為了達到這個目标,海量視訊檢索就是一個非常必要的工具。

相對于視訊鑒黃,以圖搜視訊實作的是針對通用物體在海量視訊中的快速精準視訊檢索。

再來談談它的核心技術。

以圖搜視訊的技術包括經典的模式識别、深度學習領域相關技術,其原理是通過經典的模式識别技術和深度學習技術的融合,達到海量視訊搜尋在精準度、速度上的最佳組合。

而應用場景就很好了解了。

視訊搜尋的應用場景覆寫很多我們生活和工作中的方方面面,簡單來說,大家目前在各大網際網路視訊網站、電影視訊網站搜尋自己感興趣視訊的時候,隻能通過文字關鍵字來搜尋。

而如果內建了以圖搜視訊的技術,就可以通過某個電影場景、片段、海報等等直接的圖檔内容來進行搜尋。

另外,在網際網路安全領域,目前對圖像、視訊内容的稽核,都無法做到自動稽核,還很大程度上要依賴人力,通過以圖搜視訊技術,可以自動稽核圖檔或者視訊中的包含的内容資訊,這就提高了網際網路安全領域的圖像以及視訊内容的過濾和稽核效率。類似的應用場景還存在于安防、電視媒體、個人圖檔以及視訊管理應用等諸多領域。

魏京京:其實,“圖像/視訊檢索”和“圖像/物體識别”是一對孿生兄弟,在某些時候,這兩類技術是可以互相通用的,比如,為了達到物體識别,你可以先進行圖像檢索,再進行圖像識别來達到識别的效果;為了達到圖像檢索,也可以先進行識别物體,然後再進行檢索來達到圖像檢索的效果。

當然,它們之間也有很多差異,為了達到通用範圍的圖像/視訊檢索,目前經典的圖像/視訊檢索算法,是沒有加入圖像識别技術,這主要有幾方面原因:

一、沒有加入圖像識别,可以有效的降低物體遮擋造成的無法識别的問題,圖像/視訊檢索可以通過物體的局部特征進行有效的比對并準确查找到目标伍,即使該目标物體大部分都被遮擋也不會妨礙搜尋的準确性。

二、為了達到通用物體的搜尋,目前還無法加入萬事萬物的識别,即使随着深度學習技術的迅猛發展,我們仍然無法對所有物體進行有效識别。是以,為了檢索的準确性,依賴對萬事萬物的識别也是不現實的。視訊鑒黃也是隻能對一類特征目标物體來進行識别,但是我們需要實作的是所有通用物體的檢索,是以無法現在就能加入識别技術。

但是随着深度學習技術的發展,非常好的趨勢就是把深度學習技術和過去經典的圖像/視訊檢索技術進行結合。圖麟科技的做法有兩方面:

1.通過把識别技術和檢索技術進行有效的統一,真正把原來兩步過程(檢索、識别分成兩個單獨的步驟)變成統一的一個過程來做檢索。這涉及到算法每一個步驟的兩類技術的融合統一,包括特征提取、比對等等細節過程。

2.在某些可以限定的較寬泛的領域,通過識别問題來确定範圍,然後在有效識别的子類中進行快速圖像/視訊檢索。視訊鑒黃隻是其中某一類場景,還有包括很多客戶特定的應用場景,這一方式可以快速有效的進行優化融合,把識别和視訊搜尋技術快速有效結合。

魏京京:視訊的本質就是圖像序列,是以以圖搜視訊,面臨的一個最直接問題,就是資料量非常龐大,一秒鐘的視訊就相當于25-30張圖檔,是以需要一個非常好的方法來把這些圖像序列的特征進行緊湊快速有效的融合,而不是簡單的把每幀圖檔分别進行特征提取然後采用以圖搜圖的方式實作視訊搜尋。

簡單來說,相比較以圖搜圖,以圖搜視訊,必須要通過視訊為機關來進行特征提取,才能在實際應用中達到可實施的可能。這就是相對于以圖搜圖,以圖搜視訊的差別和難點。

再補充一下,為了實作以視訊為機關進行特征提取,這中間還會涉及到視訊内容本身的認知及算法,這方面會超出以圖搜圖中單幅圖像比對的範疇,算法複雜度和難點較高。

魏京京:以視訊搜視訊,我們堅信這一定是未來的一個趨勢。因為目前以圖搜視訊還是基于單幅圖像來進行搜尋,相對還有局限性。

用圖麟科技舉個例子,我們正在實作的以視訊搜視訊技術,結合的還是之前提到的以視訊為機關進行特征提取的算法基礎,可以對使用者輸入的這段視訊進行有效的特征提取,通過算法判斷使用者對視訊中某類物體或場景感興趣,進而快速的在海量視訊中查找到相似的視訊片斷。

綜合來講,以視訊搜視訊,這中間的核心技術,也是之前提到的以視訊為機關的特征提取和比較。這與針對單幅圖像作為目标來進行搜尋相比,更往前了一步。

圖麟科技算法負責人張工:現在視訊的檢索很多時候大家還是把視訊作為孤立的幀來使用,也就是,先提取多幀的特征,最後來一對一比對。

這樣做看起來很精細,但會導緻資料庫過于龐大,而且實際上除了效率不高,精度也不好。圖麟的做法就是從視訊級,而不是幀級來組織資料庫,在效率上、精度上都有相應的提升。

魏京京:正如前面提到的,以圖搜圖、以圖搜視訊和以視訊搜視訊直接解決了目前我們對圖檔/視訊内容本身的快速擷取和過濾。

類似于2000年左右,網絡文字資訊的爆發,直接催生了文字檢索過濾等功能的訴求。而目前我們所處的工作生活領域,圖檔和視訊的擷取,就像當年我們輸入文字一樣便捷。

這直接導緻了我們所接觸到的是圖檔/視訊的海量存量資訊,同時随着基礎硬體的不斷提高,圖檔和視訊的處理也變得越來越便捷和經濟,是以視訊檢索就會在将來的各個領域變成一個剛需。具體的應用場景之前的回答中也涵蓋了很多方面,這裡不再贅述。

q:視訊檢索現在主要是用在公安,安防這一塊,那麼未來有沒有新的發展方向?

a:從我們目前接觸的客戶訴求,公安、安防隻是其中一個比較小的領域,大批量具有很多圖檔、視訊存量的企事業機關,都表現出很直接的對以圖搜視訊的緊迫需求。

目前的很多公司,已經在圖檔、視訊上積累了很多資料,但是這些資料本身他們沒有辦法進行有效的互動和擷取,這些都是視訊檢索的用武之地,類似于廣電、網際網路、文化、營銷等等。

q:您認為以圖搜視訊技術在機器人技術方面有沒有應用可能呢,或者說您對這項技術在機器人方面的有沒有什麼想法?

a:以圖搜視訊本身涵蓋的底層技術面比較多,包括了圖像識别、深度學習、模式識别、視訊檢索,從大類來看,這些都是cv領域很重要的底層技術,他們也都可以直接應用在機器人視覺方面,簡單來說,機器人的視覺所需要的物體識别、室内導航視覺子產品、圖像/視訊比對技術,都已經在視訊檢索中部分得到體驗。

以視訊搜視訊,其實跟機器人場景結合的就很密切,機器人通過攝像頭進行視訊輸入後,可以快速有效的定位他所處的場景,并做出行為回報。其他關于識别方面相信大家都很了解了。

q:“從視訊級,而不是幀級來組織資料庫”,這個可以詳細解釋下嗎?

a:這麼說吧,如果一個視訊有100個小時的話,目前市面上很多視訊檢索系統,可能資料庫是存儲單幀的,這樣總共有100*3600*25幀,資料庫是這麼大。但是如果以視訊内容來分級,可能隻有幾個獨立的視訊剪輯,這樣就小很多了,檢索起來也快。

q:您經常逛那些技術論壇以及社群?

a:我個人喜歡看一些頂尖的國際論文,例如cvpr,icml,iclr。

本文作者:程弢