天天看點

CVPR專訪阿裡iDST華先勝:電商搜尋與城市大腦,本質上都是視覺系統問題|CVPR 2017

雷鋒網 ai 科技評論按:在 cvpr 2017 ,雷鋒網(公衆号:雷鋒網)

ai

科技評論看到了非常多的工業界人士來到現場。這個計算機視覺領域的學術會議吸引了如此多的企業研究院大牛,他們對工業界與學術界的融合有何看法?又是如何了解自家業務在視覺領域的地位和創新點的?為此,雷鋒網

ai 科技評論與阿裡 idst 視覺計算組負責人華先勝在 cvpr 的現場進行了一次交流。

CVPR專訪阿裡iDST華先勝:電商搜尋與城市大腦,本質上都是視覺系統問題|CVPR 2017

華先勝,北京大學應用數學博士、ieee

fellow、acm 2015 年度傑出科學家、mit tr 全球 35 位 35 歲以下的傑出青年創新人物,曾擔任 acm

multimedia 等大會程式委員會主席,是視覺識别和搜尋領域的國際級權威學者。于 2016 年 7

月加入阿裡人工智能研究機構idst科學家團隊,帶領視覺計算團隊的研發工作。

華先勝認為,cvpr

這個會議整體上還是非常成功的。計算機視覺領域的研究大多傾向于實用,與工業界的聯系也比較緊密,企業參與到學術會議中,實際上也能了解學術研究的整體發展狀況。就像

siggraph

一樣,當工業界的參與程度非常高的時候,這個會議也變得越來越紅火。「這類會議成功與否的一個重要标準在于,它能不能對工業界産生影響力。如果隻是學術圈自己在推進,這個領域可能會變得越來越封閉。」

雷鋒網

ai 科技評論也發現,不論是贊助商日趨增加的 aaai 2017,或是應用研究開始嶄露頭角的 acm

計算經濟學會議,與工業界的融合和溝通已經越來越頻繁,而尤其是在計算機視覺這個領域,學術界和工業界的界限也變得模糊起來,很多文章可能都是高校與企業研究院一同合作的課題。

以本次被

cvpr 錄用的論文《video2shop: exact matching clothes in videos to online

shopping

images》為例,第一作者是西南交通大學的博士生程治淇,他在阿裡實習期間與視覺計算組負責人華先勝、進階算法專家劉揚及他的導師、西南交通大學的吳曉教授合作完成了這一論文。論文提出了一個名為

asymnet 的深度神經網絡,通過學習衣物序列特征并對其進行編碼,能夠檢測并追蹤衣物,使用者在觀看視訊的時候,便可以輕松地選購明星同款服裝。

這一研究自然是着眼于阿裡的老本行——電商領域,華先勝最初的工作也一直關注的是像「拍立淘」這樣的産品系統。而目前,華先勝作為阿裡 idst 視覺計算組的負責人,目前所負責的城市大腦項目,也同樣有着視覺的需求。

在本次

cvpr 的 workshop 環節,華先勝作為 target re-identification and multi-target

multi-camera tracking 的特邀演講嘉賓之一,發表了《practices of large-scale target

re-identification》的演講。

華先勝告訴雷鋒網 ai

科技評論,這一主題和電商的商品搜尋及城市大腦項目都有着緊密的聯系,是以将阿裡整個集團與目标重識别的業務綜合地做了一個介紹。搜尋(search)的範圍相對寬泛一些,隻需要找到符合要求的内容,甚至是相似的内容就可以了,比如以圖搜圖,可能會有很多相近的結果;而重新識别(re-identification)則需要精準比對,比如在整個城市裡找到某輛車,目标就非常明确了(隻有一個)。不過,商品的搜尋與城市大腦項目所涉及到的幾個關鍵步驟是很相似的,本質上也就是做一個視覺搜尋系統(visual

search system)。「這與拍立淘的系統其實是很像的,隻不過關鍵點的差别是在 feature

上。對于電商而言,要找的就是同一個商品或是相似的商品;而對于城市大腦的話,我們目前要找的主要集中于三種對象:車、人,和騎車的人。」

阿裡從淘寶起家,後來也投身支付寶和菜鳥的業務,但實際上并沒有跳脫出電商的本質。目前,城市大腦項目組的推行,則讓很多人看到了阿裡的另一個野心:雲計算。「阿裡推行城市大腦項目最關鍵的地方在于,希望能通過大計算去挖掘大資料背後的價值。」華先勝告訴雷鋒網

ai 科技評論,不論是交通或是安全,城市是一個非常大的資料載體,或者說是聚合體。包括視訊信号、gps

信号、微波信号等多種類型的資料每天都在積累,但其中的價值還遠遠沒有充分挖掘出來。「阿裡城市大腦中很關鍵的一個任務就是要解決視覺信号的問題,這實際上是對城市的智能感覺。」

城市在沒有攝像頭的時候,一開始可以說是處于一個「無感無知」的情況;後來城市裡有了攝像頭,但缺乏這些資料的分析和研究,這個狀态就是所謂的「感而不知」;而在海康威視、大華為代表的公司在攝像端算法上發力,逐漸往「感而略知」發展;如今以阿裡等企業牽頭所做的城市大腦項目,則是希望做到「感而全知」。

「全面知、全局知、全時知,」華先勝以這三個詞概括了城市大腦的主要特點。全面知指的是除了車和車牌之外,我們可以了解城市中包括人與非機動車的一些情況;全局知指的是整個系統有強大的計算能力,得以從多個方面宏觀了解城市的情況;全時知則是實時、及時地把握城市在交通、安全等方面的情況。

此前華先勝在接受雷鋒網采訪的時候也提及,自己并不認可企業隻關注算法的商業模式,「城市大腦項目的推進得益于強大的計算能力和 ai 技術的發展,阿裡在做的其實是一個平台、一個生态,歡迎各個企業也能夠加入其中,這樣一來,資料的價值也能更好地展現。」

而在

cvpr 2017 交流期間,華先勝也了解到,比起學術界,工業界能接觸到的資料量确實有着質的差距。「我昨天看到一個 poster,用了大概

20

個攝像頭、上百個人的資料,就算得上是大資料的研究了(large-scale),但阿裡在算法研發中自測資料集基本上是上千個攝像頭,上萬個人的體量,這個數字在學術界可能是無法想象的。」不過,華先勝也指出了工業界的上線壓力和快節奏的特點,這也常常導緻很多研究難以做得更加深入,需要學術界的自由度和前瞻性來彌補。

華先勝也告訴雷鋒網

ai 科技評論,他在參會時感受一個明顯的需求,就是提升深度學習 inference 的計算效率。不管是 embedded device

上的需求,還是雲上大規模計算的場景,如何降低計算成本成為了一個熱點。「以阿裡巴巴的城市大腦項目為例,需要處理的資料量非常大,從成本的角度出發,對效率也提出了更高的要求。阿裡

idst 同樣在做相關的優化工作,也希望從本次 cvpr 上擷取一些效率提升的研究靈感。

此外,阿裡這次來到 cvpr

現場,同樣有着不小的招人需求。正像雷鋒網 ai 科技評論在此前報道中所提及的,本次的贊助商達到了 127 家,總贊助費超過 85.9

萬美金。與其他工業界展商一樣,阿裡一方面是為了介紹自己的研究成果,另一方面也着眼于在人才濟濟的學術會議上招攬優秀的老師和同學們加入阿裡 idst

。我們也期待,阿裡 idst 在未來能夠給我們帶來更多的城市大腦應用,将資料的價值展現得淋漓盡緻。

本文作者:奕欣

繼續閱讀