天天看點

騰訊優圖實驗室賈佳亞:加入優圖第一年 | 專訪

機器之心原創,作者:邱陸陸。

賈佳亞是 2017 年 5 月加入優圖實驗室,擔任總經理一職的。1 年 3 個月之後,他以「可以看到、可以感受到、可以用到」為标準,精選了優圖實驗室的一衆技術,在上海完成了實驗室的第一次對外公開亮相。

這是一場非常罕見的、完全由技術團隊主導的釋出會。他介紹了優圖的「一個核心、四大方向、十個領域」,給出了具體到每一個領域的大量案例,(演講全文見文末)。在會後,賈佳亞接受了機器之心的采訪,我們聊了聊優圖五花八門的成果的誕生之路,以及他從學界跳轉業界之後,夙興夜寐的第一年。

機器之心:您加入優圖實驗室剛好一年時間,能否介紹一下您在優圖這一年的工作?

今天我們在峰會現場做了一個釋出會,希望讓外界對技術比較關注的朋友們能夠近距離看一看高科技和産業落地較好結合的一個場景模式。而今天釋出的新内容絕大部分是我們團隊在過去一年做出的。我從去年加入優圖就開始了一系列舉措,其中主要在于人才儲備,系統構架和合理的管理方式這幾方面。

最開始我一個人到今天管理着有幾十位的博士和相當數量的開發人員團隊 - 我們完成了整個中層、底層構架的建構,接入了騰訊雲,在公司内部的日調用量超過兩億次。這一年裡我們做的很多事情是以前很難想象的。

初期我的大部分精力投入在組建團隊上面,從去年五、六月份開始,在公司其他同僚的幫助下,我們吸引了一些學術水準非常高的博士、碩士加入,這是奠定團隊發展的契機。

我們承接了一些 AI 需求,大多數都是時間緊、任務急。

年底的時候我們十幾個人已經在建構三、四個大型的項目了。同時我們在把之前積累的算法進行體系化的建構,能夠在之後的項目上把之前的積累落到實處。

我們把很多視覺領域重要的算法變成了服務提供給其他團隊。我們的服務調用起來非常簡單:我們有整套的資料了解、清洗,模型建構,以及在生産環節快速的伺服器端和移動端調用。

以前騰訊有不少團隊都有少量的研發人員在做同方向的開發工作,後來和我們合作慢慢發現,優圖的服務确實在準确度,穩定性和執行效率上都非常高,是以逐漸主動地、信賴地把業務交給我們完成,改為直接調用我們的服務。這是一個很大的變化。因為少量的高端研發人員隻能靠自己的力量每年完成一兩個小項目,但是在我們團隊提供中台計算環境、資料和流程化管理的前提下,科研人員的研發能力可以迅速轉化為生産力。

機器之心:在釋出會上,您透露優圖将會圍繞四大方向(社交娛樂、工業生産、社會進步、前沿探索)和十個領域(臉部操作、OCR、零售、自動駕駛等)展開工作,這些方向和領域是如何确定的?

這是一個了解、傳播、決策,經過回報之後再疊代的過程。

我剛加入優圖的時候,其他團隊并不知道我們能做什麼,而且可能比較傾向自研。是以首先我先定義優圖新增的能力範圍,讓大家有一個基本認識。有了認識之後,我們會接到一些需求,這些需求可能并不「高端」,比較瑣碎。比如最常見的圖像分類任務,這已經不是學界前沿了,但我們把它踏踏實實做出來,争取不但能夠滿足産品團隊的需求,甚至讓準确率和執行效率高出目标 20%。同時我們不僅在内部評測完全合格,也做到了業界最好水準。這樣口碑就迅速積累起來。

口碑建立之後,有更多的團隊、公司、媒體知道我們在做什麼,來了更多需求。但是人力仍然非常有限,這時我們需要在大量的需求之間進行決擇。我們選擇任務時考慮的因素有三點:第一是必須要可傳遞,以及傳遞後應用範圍有多大;第二是關聯性,這個任務和之前做過的任務是否有關聯,如果有,那我們可以高效率地快速完成;第三是比對性,項目的要求和内部的科研人的能力是否比對。

其中決定因素還是場景足夠大,最直接的展現是一個功能實作之後調用量會特别大,比如娛樂方面。其他例如自動駕駛中的感覺技術,會認為有巨大的隐含價值,這樣的項目我們也會考慮。

機器之心:優圖的團隊現在有多大規模?如何在不同項目之間進行人員配置設定?

我們在深圳和香港大約有一百多名研究人員,在上海和合肥也有一百多人。除此之外還有全球高校在讀的很多碩士、博士生,願意加入我們短期或者中期一起做科研。

我們自研了一套科學的管理方式,能夠確定能夠找到合适的人去做項目。一個任務,最短甚至可以以「兩個星期上線一個版本」的速度去完成,這都依賴對中間資源的合理調配。

機器之心:如何看待其他團隊對接過來的需求?如何從技術角度定義需求?技術人員會傾向于從技術出發「拿着錘子找釘子」,而産品需求方會因為對技術的了解不深入提出不适合現有技術完成的需求,如何彌合這一鴻溝?

在學術界,因為每個團隊大小有限,而每個學生總有技術偏向,很多學生畢業後在這個學校的技術很難「傳承」給團隊,容易有拿着錘子找釘子的情況。但是對優圖而言反而沒有這個問題。

這是因為第一,我們不斷有能力強的同僚加入進來。視覺技術方面我們已經很少有優圖完全沒有涉獵的部分了。從自動駕駛感覺的核心技術到醫療影像分割,我們把技術補充得很全面了。我們不止有一個「錘子」,而是有一個「工具箱」。

第二,騰訊的業務涉獵非常廣泛,内部外部有不計其數的需求,從遊戲系統到推薦系統,其中很多關鍵技術都對視覺有依賴。有各種各樣的「釘子」,甚至因為人手不足,我們需要挑「釘子」。

機器之心:您在演講中提到,實作一個需求「不簡單」的地方往往在與實際中的具體問題,比如圖像過曝、欠曝、部分遮擋等。能否說明如何把技術變成實際的解決方案?

确實,需求都是非常抽象、概念化的,但是我們要把它細化、具象化,變成一個技術的內建,分而治之。

我覺得這是做學術的高端人才來工業界的優勢:學術界的資深學者知識儲備是全面的。雖然我的最強研究成果隻是計算機視覺中的一部分,但是我對整個領域都有比較清楚的認識。我知道圖像識别現在最高的準确率是多少、圖像分割經曆了語義分割、個體分割、全景分割之後是否有新概念提出來。這種對新概念和方向的把握確定我們可以把一個不專業的需求分解,轉化成技術語言和子產品,然後清楚怎麼找每一個問題的解決方案。

我的團隊沒有遇到過「不知道怎麼做」的問題,我們唯一的問題是「如何比業界其他團隊做得更好」或者「如何創新地解決這個問題」。

機器之心:在相似的問題、場景下,使用相似的方法,如何做到「比業界做得更好」?

這就是人才儲備的重要性了。

對于一些比較成熟的領域,學界産生了一些非常基礎的、有效的、可以合理利用的模型,但它們并不适合在工業界直接采用。比如 ResNet 是做圖像分類的常用模型。但是 ResNet 沒有考慮執行效率,沒有考慮類别間的距離問題。比如在缺陷檢查方面,我們要考慮一些看起來非常相似,但是實際上是兩類缺陷的情況,這時候這個問題就變成「細顆粒度分類」,就變成一個不适合用 ResNet 解決的問題。

缺陷檢測模型還需要考慮光照情況、遮擋情況,直接用開源模型改一改,不可能産生好的效果,這時就需要能力非常強的研發人員,去針對特定問題設計新的子產品和環節,例如增加一些新的子產品、跳轉、循環方式或者特征,這是一個沒有做過特定方向的深度學習研發人員所不可能設計出來的。

這也是為什麼市場上有很多公司說自己在做人工智能,但是獨角獸隻有寥寥幾家。大公司裡的實力一流的團隊也很少。因為想要把全部前沿 AI 問題做深做透,接觸各種業務,就需要非常強的人才儲備和管理。

機器之心:現在優化模型的做法有什麼方法論出現嗎?

現在很多研究者,包括我們自己,都在進行相關的研究。

舉個例子,人類學科學家發現,5000 年以來,人類的智商是平穩,甚至稍微下降的。但是即使現在我們要學很多知識、掌握很多新工具的用法才能應付日常生活,人們也沒有覺得是很大的智力負擔。這是因為人腦是一個自适應的網絡系統:它的基本組成構件搭成以後,整個通路的構成、參數的設定都是自适應的。5000 年前的知識,在這個架構生成了一個結果,使我們祖先在野蠻的大自然裡活了下來。5000 年以後的文明環境需要的學習國文,數學,科技也可以在同樣的架構下生成一個新的回路,把這些知識存儲運用起來。

類似地,将來不會每個領域都由各自的模型「統治」的局面,而是形成一種通用智能,把所有的架構優化到最好,合而為一。現在優化方法還處于 AI「初級階段」,主要靠科研人員的專業知識積累。

機器之心:如何總結加入優圖的這一年?新的一年有哪些計劃?

在加入優圖之前,我與工業界的合作大多都局限在短期的項目,并沒有建構一個全面的團隊。是以我加入優圖的目标是在工業界不局限于簡單地完成一兩個項目,而是做到在每段時間目标不明确的情況下,仍然把科研落地産品化的事情做好。

而想要把算法積累變成可以讓大家感受到、用到的産品和元素,依靠的是一個體系化的建構過程。我們總計超過二百人的團隊和騰訊内部的構架部門、騰訊雲一起搭建了叢集環境,讓深度學習的網絡能夠在大規模并行系統上開展起來,而在此基礎上,輔以精心設計的管理人員層級架構,研究人員得以專注于算法和技術,以及算法在各個端的部署,研發出了種種看得見摸得着的算法。

當然現在我仍然留了一部分時間在學校。即使公司的事情再忙,「培養下一代人才」也仍然是非常重要的一個任務。我希望能把我們積累的知識、能力和方向「傳承」給下一代學生,讓他們去探索一些前所未有的新内容。

未來一年首先把這四個大的方向上的投入夯實,在娛樂、OCR、工業檢測等等領域裡,我們已經有一個好的開局,但是還有很長的路要走,希望明年這個時候,我們可以再次告訴大家,即使在同樣的領域,我們也取得了一些不一樣的、有開拓性的成績。

演講實錄:

首先謝謝各位的莅臨,優圖實驗室過去兩、三年發生了非常大的變革,接下來的時間我會為大家介紹優圖實驗室在過去一年多的時間裡做了什麼。

大家有沒有意識到,這是優圖實驗室第一次主動地對外公開亮相?而大家回想一下,在你的記憶裡面有沒有任何一家公司的技術團隊出來做對外釋出會的?在我的記憶裡,我是沒有參加過也沒有聽說過。今天我們的釋出會也算是開了一個先河。

技術團隊為什麼難以開釋出會?有這樣幾個重要原因:第一,如果技術團隊的技術儲備很單一,則很難講這個技術到底有多少用;第二,如果技術不深入,則很難講得清前因後果;第三,如果技術不領先、不創新,隻是一個簡單的實作,也無法講出技術有多重要。

是以我總結了一下,我們的技術有三個特點:

第一,優圖所做的事情,很多的結果、目标都能看到。

第二,優圖實驗室的産品和技術是能感受到的,希望大家通過我的演講感受到優圖實驗室的溫度和力量。

第三,今天釋出的東西都可以用到,不管是個人使用者還是企業使用者,我們都提供了一些可以大規模使用我們技術的方法。

首先給大家看一些數字,講講優圖實驗室過去一年做了什麼事情。

在優圖實驗室,我們申請了超過 500 項專利,提出了 10 大産品解決方案,接入了 70 多條騰訊明星産品的生産線,有超過 300 多家客戶落地。最重要的是,優圖實驗室提供給公司内外服務的調用每天超過 3 億次,這一數量在世界上所有的技術團隊裡面,都是值得一提的。

第二,優圖到底在做什麼。左邊是一個矩陣,橫軸是從左到右是場景結合的從少到多的應用,縱軸是通用技術到垂直領域的遞增。優圖實驗室最早進入的領域是政務、金融、社交娛樂,這三個領域裡面涉及大量的人臉和 OCR,這是視覺裡面最早能夠落地的方向。去年開始,我們加大投入,進入更多的垂直領域,包括交通、運輸、廣告、零售、教育和資訊流。增加的技術包括圖像稽核、了解、分割、視訊的各種操作,以及人臉、身體的重建等娛樂化的操作。今年,我們立項了兩個新的探索方向,醫療和自動駕駛。

細分一下,我們在圖像内容的了解上,調用量是在千萬級到億級之間,我們的人臉 OCR 也是在千萬級調用。這樣的調用數量級說明,我們的場景和技術真正地與産業結合,能夠産生巨大的對人類社會的推動作用。

在一個公司建立完整的人工智能體系要做很多的事情,在上層,我們必須有能力去開發和完成視覺的硬體,完成視覺的平台搭建。第二,我們要完成架構搭建:我們能否有快速的、内部自适應的學習系統,能不能在移動端、嵌入式系統端、伺服器端迅速地完成訓練、分布和部署。當然,還包括了很多的解決方案。依托于完整系統的建立,從研究到開發後,我們通過與騰訊社交、騰訊雲和騰訊覓影等部門合作,把我們的技術對内和對外做一個長期的、穩定性、持續性的輸出。

在這裡面,把我們做的事情如果再細分一下,我們有「一個核心」,就是以計算機視覺為中心;在這上面走入了四大方向,包括:社交娛樂、工業生産、社會進步、前沿探索;再細分下去,社交娛樂會有臉部操作、人體姿态了解、圖像增強,工業生産會有辦公、品質檢測等一系列的投入。在十個領域裡面,我們有非常多案例可以給大家看一看優圖實驗室在每個領域做了什麼事情。這也是我們技術團隊敢于開釋出會的原因。

第一個是「AI + 零售」。

優圖實驗室希望通過 AI 改變零售行業,這是很多公司的目标,提升使用者體驗、定義新的線下零售模式,更好地連接配接人與商品、商家。依托于這一大目标,我們集中火力做了兩件事:一個是智能貨櫃,一個是騰訊優 Mall。智能貨櫃依托于商品識别,能讓使用者迅速完成商品購買,讓商家完成供應鍊的管理。騰訊優 Mall 是顧客和商家的行為系統分析,幫助使用者在任何線下商店提高自己的體驗,增加使用者作為上帝的感受。

智能貨櫃在實踐中有很多的視覺問題,包括攝像頭對于采集圖像過曝、欠曝的問題,部分遮擋的商品怎樣處理,頂部難以區分、外觀十分相似等,這都是真實遇到的問題。

為了解決這樣一些問題,優圖研發過程中,我們設定了幾個目标:

第一,希望做到檢測結果非常精準。這個精準意味着我們要達到錯誤率遠低于一個普通線下超市的損耗率。第二,希望解決方案更加有适用性和廣泛性;第三,适用場景更加廣泛,不同的櫃種、不同場景下都可以用到這一套解決方案;最後,我們希望解決繁多的商品種類的問題。為了解決這樣一些問題,我在左邊列出了解決方案,這是一個硬體、算法與服務的內建。

智能貨櫃亮相 5 月份的廣州「騰訊雲+未來峰會」,當時會上有很多人,但是周邊沒有超市,是以貨櫃變成了大家買商品和飲料的場所。回報是感受驚人,可以自由地選取商品,自由支付,跟普通的販賣機完全不一樣。7 月份、8 月份繼續更新算法層面後,我們提出了整套解決方案,達到了一個貨櫃超過 40 多種商品,準确率接近 99% 的準确率。在上個月的重慶智博會上,實際訂單數目 700 多單,錯誤訂單隻有 2 單。在全部基于攝像頭,沒有重力感應和深度攝像頭的基礎上,達到了 99.72% 的準确率。

第二個是騰訊優 Mall,這是另外一套解決方案,希望幫助線下的零售合作夥伴完成顧客營運管理和門店精細化管理,實作每一個客戶來到門店後可以得到個性化的服務。我們現在有這套裝置,不管這個店是不是新開的、店員是不是新招聘的,我們都可以完成老顧客進店即識别,同時根據顧客的喜好推薦當季的新衣服,讓她迅速找到自己想要的商品,迅速地完成商品的轉化。在十萬量級的規模下,識别精度 98%,召回率 95% 以上。我們跟永輝超市、百麗等非常大的線下商戶有合作關系,正在研發和推進整套系統的完善和更新。

第二個是「AI + 工業生産檢測」。

工業生産在中國是規模非常大的行業。每年高危作業人員有超過一千萬,工傷超過一百萬。優圖切入工業 AI 是依托于幾個方向:

第一個我們與華星光電進行合作,做面闆智能檢測,減少人力需求。同時,在這樣一個檢測過程中,通過對面闆不同缺損的分析,我們還幫工廠回溯到源頭,看看哪個環節出了問題,或者能提高哪些生産工藝,使得良品率更高。現在我們輔助華星光電完成超過 100 道工序的檢測,減少超過 60% 的質檢人員。而且當新的員工進來的時候,企業可以節省一大筆教育訓練成本,讓需要用人力完成部分的人員迅速上崗。

在技術層面有兩個重點:第一,是可複制性。每一個行業,甚至是對每一個企業而言,它的采購程式、質檢程式都是五花八門、沒有統一标準的,是以我們希望用技術去實作一個可複制型的排檢系統,有多模型協同去做分割、定位和模闆的比對,對于很多的缺陷,在一期測試結果上我們的識别準确率已經達到了 90%,超過了一般員工在工廠裡面做檢測的水準。這裡我們有兩個主要的技術投入,第一個是智能缺陷檢測識别。一塊闆出來,有 12 個工作站在各種層面不斷地對闆加工,缺陷究竟是因為這 12 個站點裡哪個出了問題,傳統意義上很難知道。80 多種缺陷裡,有一些缺陷看起來很不一樣,但卻是同樣的缺陷;有的缺陷長得非常相似,但不是同一種缺陷,用算法語言表述,就是類内間距非常大、類間間距非常小,是以這是算法層面的挑戰。

還有另外一個案例,高壓電線的工業檢測。以前很多勞工為了檢查高壓電線、管道和電纜需要進入深山老林,這是一個「行走在鋼絲」的行業。然而随着發展,利用算法協同無人機,能夠同時做 9 項缺陷的檢查。在關鍵元件絕緣子的檢測上面,我們在一期達到 95% 的準确率,後期我們會繼續推進不同缺陷的檢測。

第三個是「AI + 社交娛樂」。

一直以來優圖的長處是在 3D 人臉關鍵點、人臉分析和人臉編輯方面,我們可以改變人的性别、外貌、皺紋都有特别的方法完成。

今年,我們新做的技術包括,人體分割達到了 96% 的準确率;人體超過 80 個關鍵點追蹤,标準的誤差率達到 0.48。

新的探索方面,我們做了三維人體重建。很多遊戲需要大量的動作捕捉進行 3D 模組化,這是一個非常昂貴的過程。優圖在思考,能否通過一個視訊就實作 3D 模組化的比對和完成?

這包括幾個重要的方面:一個是人體重建算法,第二個是動作捕捉算法。在人體重建上,我們可以達到 53 毫米的精度,在動作捕捉上是 74 毫米的精度。我們相信這會在遊戲的設計和研發過程中,産生非常大的作用。

我們剛剛研發的 FaceKit,希望擺脫手機端對于三維攝像頭的依賴,希望通過傳統的單目攝像頭,完成臉部追蹤和三維重建。用一個 iPhone6 可以實作與 iPhoneX 類似的結果。我們相信這樣的算法可以在非深度攝像頭手機上完成娛樂場景的普及化。

還有「AI + 辦公」。

OCR,是十幾、二十年前很多的公司就在做的事情。但是現在為止,OCR 還是值得探索的落地方向,它對于金融、教育、旅遊等行業,對于手寫體、數字、各種圖示的識别都要有一個調試的階段。優圖的 OCR 一直以來是我們的強項,今年我們就加大了對于标準化資料的識别的投入。

依托于第三方,我們與整個市面上現有最好的技術做了比較,在證件照、增值稅發票等方面,優圖所開發出來的這套 OCR 軟體,能實作 95% 以及 99% 的準确率,這在行業裡面是非常領先的。

除了剛才所說的對于工業和企業業務有非常大的價值的東西以外,優圖實驗室作為研發團隊,也非常關注對于社會公益和社會價值的展現。這一點上,我們會跟一些初創公司或者是中小公司有所不同:我們還是希望做更多的對社會有推動作用的事情。例如,福建省公安廳通過優圖人臉比對方案找回了超過 600 多例的失蹤人口,這對于整個社會有非常正面的促進作用。

再往下是「AI + 文化」。這也是今年第一次嘗試做的事情。

中國地大物博,有非常多的文化傳承是人類發展的見證。但是,絕大部分中國的文化遺産都存在非常多的破損和瑕疵,敦煌壁畫就是一個案例。

文物修複的人才奇缺,導緻以人手完成敦煌壁畫的修複以及臨摹大概需要一百年的時間。是以我們與故宮博物院、敦煌博物院合作,做了數字色彩體系的建立,也參與了「古畫會唱歌」這樣的能夠帶給年輕人樂趣的項目,讓他們更容易親近我們的文化遺産。而如果想修複和臨摹一張壁畫,一位有幾十年經驗的修複人員大概需要兩到三個月。是以我們希望通過 AI 完成基本線條和結構,再幫助修複人員完成後期的事情。

今年春節,我們上線了一款很好玩的「老照片修複上色」,把褪色的、黑白的照片上傳以後,還原成一個有色彩、有溫度的一張照片。在春節期間,這個功能每天的調用量超過 30 萬次。

最後是前沿探索的方面,第一,我們繼續大力投入道路感覺。我們與騰訊的自動駕駛團隊合作,做了包括道路了解、3D 點雲的了解、行為預測等。例如在道路場景分割上,即使被遮擋,也能估計被遮擋的車的輪廓、人的輪廓等;還可以直接通過 3D 點雲做道路上的物體識别,把車、人、道路的資訊提取出來。

最後是醫療部分,優圖希望投入到三個主要方面: 在肺結節、宮頸癌、乳腺癌方面,通過視覺算法加上海量的醫療影像資料,通過騰訊覓影接入超過 60 多家醫院提供的資料,提供全面和高效的癌症早篩的方案。我們的理念不是取代醫生,而是用一個 AI 的技術提高醫生本身的确診率。在靈敏度和特異度上,我們發現我們的結果能夠産生很大的作用。在過往盲測的檢測過程中,醫生得到結果後,會根據我們的算法改善結果,這個操作會讓癌症的識别率大大提高。

這是我們與硬體廠商開始所合作的內建超聲裝置在做實時監測。在醫生做超聲的檢測時,以每秒 25 幀的速度發現可疑的地方,然後把圖像上傳到雲端,通過騰訊覓影做更精确的判斷和檢查,然後把結果回報給醫生。

最後在基礎研究方面,我們有超過 50 篇的論文發表,我們有超過 80 位的博士研究員,我們的高校合作遍及全球。我們希望不單與中國頂級的高校和專家合作,也希望在全球建立這樣的合作關系。我們有自研的裝置和學習平台,有超過 100 億量級的資料,也有超過 1000 塊 GPU 做運算。

今天我的演講就到這裡,希望大家聽完今天的東西,發現原來技術團隊的釋出會也不是僅僅是一些算法或者是模型的羅列,也是很有意思的,謝謝大家。