天天看點

圖普科技李明強:用産品思維打造圖像識别的場景化應用

作為微信創始團隊成員之一的李明強在 2014 年創辦了「圖普科技」,這家公司為企業使用者提供一個「圖像識别雲服務」,企業可以選擇或者定制自己需要的各種圖像識别服務,完成内容稽核、場景識别等功能。例如在視訊網站的「鑒黃」稽核中,如果雇傭人工稽核員的話,每天最多稽核兩萬張圖檔,而圖普科技能為視訊網站節省 90% 的稽核人力,鑒黃機器人單張圖檔響應時間小于 0.2s。

圖普科技創始人李明強是原騰訊資深項目經理和 T4 的技術專家,跟随張小龍一起參與了 QQ 郵箱和微信等産品的研發,擁有 7 年的網際網路産品項目管理、團隊管理、産品設計以及營運推廣經驗。機器之心最近對李明強進行了專訪,以下是采訪實錄:

機器之心:你之前在演講中曾表示很早之前就開始關注技術,能大體講一下這個過程嗎?

李明強:我很早國中的時候就開始接觸計算機和程式設計。那個時候還是 Apple II,286、386(90 年代計算機型号)時代,我那時就會自己去程式設計式,然後會看相關書籍。我有個大我 6 歲的姐姐,她當時讀的是資訊管理,但是她覺得我看的那些書她都看不懂。

很小的時候,我就會去看電路圖、焊電路闆。那時候打電話還很貴的,而且不是每家都有電話,我就跟鄰樓兩個小朋友搞了一個無線對講機,通信距離有幾十米。我們花了十幾塊錢買了一些零件出來,然後自己去用電烙鐵去焊,自己做電路闆,就把這個東西做出來了。電路闆要配合收音機來使用,然後再調頻率,接收到信号再在另一邊拿收音機接收。後來我會去用彙編寫一些黑客程式,做些接口,或者把更大的記憶體調配出來,等等。是以說我對技術的興趣是很早就有了。

機器之心:你後來關注人工智能可能也和從小養成的這種對技術的熱愛和敏感度有關吧?那你是在什麼時候覺得人工智能很有趣并開始研究這個領域的呢?

李明強:我是學技術出身的,是以很早就看好人工智能這個概念了。我們在程式設計裡面會或多或少用一些這樣的方法,那個時候我對人工智能的了解就是一堆很靈活的配置的參數。當時用的是比較低維的函數去拟合,現在的神經網路是用高維函數去拟合。

到了蘋果的語音識别系統 Siri 剛出來的時候,我覺得這個東西很好,就去試了一下,發現 Siri 的第一個版本有點不靠譜。當時喬布斯也是想讓 Siri 做很多很牛的事情,但實際上我們不能把 Siri 當秘書一樣使用。我發現它其實很傻,後來我主要想要的效果就是我要跟它說「今天晚上 8 點提醒我回家吃飯」,它就按照時間提醒我。另外還要按照地點提醒,比如說明天早上我離開家的時候提醒我要帶什麼東西,或者說當我到藥店附近的時候,提醒我買藥。我當時很想有這麼一個語音助手,但是 Siri 沒有實作這個功能。是以我就自己做了一個,叫 VToDo,可以在安卓系統上運作。在那個軟體裡我還嘗試了一下人機的自然對話,那應該是 2010 年,用的是科大訊飛的接口。

機器之心:當時張小龍有沒有看到這個産品?他有什麼評價嗎?

李明強:他說「想不到你還有沖動去做這類東西的産品經理啊。」他還是從産品的角度去分析了一下,當然其實我也是從産品這個角度上去思考這個東西。因為我是從我的需求出發,再在裡面加入了一些智能化的功能,主要是為了滿足我自己的需求——手機上打字太麻煩了。比如說每周一、周二、周三、周五要提醒做什麼事情的話,需要去用界面來去選擇,要做這個選擇的話,可能要點個十幾步。是以我就基于自己的需求引入了語音識别的功能。張小龍對這個産品挺感興趣,但他說這個太危險了。因為位置提醒時需要随時都訊問地點,而且當時在 iOS 上做不到這一點,因為當時 iOS 還不對非官方的 app 都開放位置資訊。他覺得這個東西太危險的另外一個原因就是考慮到使用者隐私,它随時都需要使用者位置共享。後來張小龍後在做那個著名的 8 小時分享時提過,我們有個叫小強的同僚做了個語音助手,微信下一個版本也會有這樣的功能。

機器之心:你從 QQ 郵箱開始就跟随張小龍,你覺得從他身上獲得的最大收獲是什麼?

李明強:小龍對我影響很大,但很多年潛移默化的,一時很難說最大的影響是什麼。比如「抓住核心需求」、「事情要往簡單去做」,還有著名的那句「我所說的東西都是錯的」,這其實說明一個很重要的問題,就是要有一個開放的心态,一個念頭出來要反複的去打磨。去掉技術等一切因素,要反問一句「這個産品一定要這麼做嗎?」其實人工智能領域也很需要這種理念。

機器之心:是不是在這之後就開始了人工智能方面的創業?

李明強:2012 年年底離開廣研,一開始做的不是 ToB 的「圖像識别雲服務」,但也是圖像識别這方面的東西,當時一開始出來做是做一個 ToC 面向消費者的 app,叫「最美搜衣」,就是對衣服進行拍照搜尋,或者是根據這個衣服的紋理上的特征進行識别并實作導購,因為衣服裡面有很多特征是沒法用文字很好表達的,比如說它的顔色、紋理和風格等。我們采集它的資訊,然後根據使用者的通路習慣來推送這個相關的資訊,有點類似于垂直領域的今日頭條。同樣是資訊的泛濫和擴充,以及需求的不明确,但是買衣服還需要相關的搭配推薦。

但後來我們發現這個事情沒法做起來,因為女人買東西跟擷取資訊還是很不一樣的,那麼微妙的東西人工智能還模拟不了,而且對使用者了解的資料量也不夠。

之後就做了圖普科技,但一開始我們還是在原來「最美搜衣」的基礎上繼續做,依然不是很順利。後來出現了快播被關停事件,這個事情對我們有了一些啟發。我發現,我們積累的那些技術用來做這類事情其實挺簡單的,也就是對事情進行判斷——哪些是對的,哪些是錯的。例如在一段視訊裡哪些是色情的,哪些不是色情的,(相對于推薦衣服)這個需求是很明确的。後來我們就試了一下,發現效果不錯。然後我就迅雷去談,他們之前試過很多家,但效果都不好。他們在試過我們的産品之後,發現雖然和他們的需求還是有點差距,但已經遠遠好過之前的那些産品。快播事件也使他們對内容稽核相當重視起來,是以他們就要求我們趕快改進産品。我們當時解決這個問題是有條主線的,想循序漸進的去做好。迅雷有上百人的稽核團隊,我們一開始告訴他們能幫你省掉 50 個人。人工智能的好處在于可以迅速的幫你完成工作的一半,但你不知道是哪一半。是以我們告訴他們會先完成 50%,并告訴他們是哪 50%,然後再通過疊代去逐漸完善。我們當時就是以這種方式來提供服務,也是這種方式來定價。在迅雷之後,我們就陸續簽了其他客戶,包括酷狗的直播平台、今日頭條、唱吧、秒拍等。随着這些企業使用者的接入,我們自己的資料量也在不斷增加,現在每天處理大約 9 億多張圖檔,現在應該是國内最大的圖像識别雲服務提供商。

機器之心:現在圖普科技在「鑒黃」的應用上有沒有得到使用者的一些回報或者統計?比如說節省了多少的人力,或者帶來了多少效率的提升?

李明強:我們每天處理上億張的圖檔,在這裡如果是需要人稽核的話,那你就算一個人一天看 10 萬張圖檔,一個小時最多看 5000 張。因為一天是八萬六千四百秒,相當于他一秒鐘看一張,而且不吃不睡覺。而且還要考慮錯誤率的問題。我們現在每天處理 9 億張圖檔,那就是相當于人力需要 18000 個小時,這就對企業的人力成本有很大的減少了。對于視訊,我們是按照截圖來稽核的。如果是人工稽核的話,大概一個地方需要看一分鐘,但我們的算法可以快速掃描截圖。

機器之心:大約是在 2011 年出現了很多做圖像識别公司,那時大家好像有一個共同目标,就是做一個通用的雲服務平台,但最後都沒有做起來,是以他們之後又轉向了細分領域。這是不是表明,對于圖像識别創業公司來說,非常需求找到一個像「鑒黃」這樣的點來切入?

李明強:對,我們要考慮的是,客戶用他們的雲服務到底來解決哪些切實問題?我覺得這就像人的馬斯洛需求層次理論一樣,先讓他吃飽飯,先保證他安全,解決生存這種問題,再往上看他有什麼精神需要。我們的這些網際網路企業的客戶其實也是一樣的,不管是視訊,直播,還是社交,他們的基礎的需求就是圖像稽核,而這個又需要耗費很大的人力成本,我們就是幫他們解決這個問題。

機器之心:你當時能夠非常敏感地發現這樣一個非常有潛力的市場,以及你能看到它的每一次産品疊代,是不是和你之前做産品經理有密切關系?其他有些圖像識别創業公司是不是缺少了這樣一種産品思維?

李明強:我覺得是的,有些公司是從技術層面出發,盯着參數去優化。就像我們很多做技術的人,很喜歡去做優化,但如果說使用者不需要,優化再多也沒用,是以你需要考慮使用者到底需要什麼。我們在做産品時也經常受到這種挑戰,産品經理首先要去假設這個産品是滿足一個什麼需求,然後大家對這個需求點推理一下,符合人性并且有創新的那個想法就會被采納,然後就推出第一個版本去試一下。一個好的産品經理能夠做到 10 個裡面有 1 個是符合要求就非常不錯。張小龍也是這樣的,隻是說他成功的機率更大,抓到的核心很多。

機器之心:圖普科技在應用方面找到了一個非常好的切入點,那能介紹一下公司的研究思路?

李明強:我們很早就開始用深度學習了,2012 年深度學習用于 ImageNet 之後,我們就開始了這方面的研究。目前我們的部分架構是基于開源的,但我們做了很多改動,因為我們要做的是具有功能的産品。其實我們自己有一些更好的算法,但我們都沒有采用,因為在成本上這不一定是合适的,而且可能會太慢。使用者需要往往是成本效益,我們不是學術機構,不用去研究那些最前沿的技術,是以我們使用的是比較成熟的東西。

對于比較前沿的研究,我們會選擇和高校實驗室合作。但作為公司的話,覺得更大的價值應該是迅速滿足消費者的需求。做研究并不是我們擅長的,我們的價值在于把科研成果商業化,滿足現有網際網路企業的需求。

機器之心:圖普科技在圖檔稽核方面做的特别好,除此之外還提供哪些圖像識别服務?

李明強:圖檔稽核會帶來其他一些相關的圖像識别應用,比如說場景識别、人物識别等。視訊網站除了需要我們的接口鑒别色情視訊外,還要去其他視訊分析發生在什麼地方、裡面有什麼人。其他的圖像識别應用我們稱之為圖像增值,是相對于圖檔稽核來說,稽核是幫助企業省成本,而圖檔增值是直接幫企業産生價值的服務,比如說通過圖像識别提升産品體驗,或者根據圖像識别出來的内容進行精準地投放廣告,等等。

機器之心:圖普科技未來是不是想做一個圖像識别的技術服務平台?

李明強:是這樣的,創業公司其實是缺資料的,是以很多人說人工智能是大公司才有可能做的,因為他們很多資料,是它的硬碟裡真真實實儲存着的資料。但是很多大公司不是缺資料,而是缺對資料的管理和利用。而我們做的就是管理和應用的這個過程,市場需要一個專業的團隊像我們這樣不斷的梳理資料。不梳理的話,不管多少資料都不是财富。而在圖像識别領域,你需要不斷地利用資料去訓練算法,去疊代。我覺得我們經過這麼長時間的積累和梳理,在資料這方面已經沒有什麼問題了,這就是我們做企業服務的一個優勢。

機器之心:圖像識别是一個非常通用的領域,比如拿人類來類比的話,我們有 80% 的資訊都是通過視覺來接收的。你覺得接下來,是不是任何一個行業都會和圖像識别、計算機視覺産生關系?

李明強:會的,機器人也需要去睜開眼睛去看世界并且和外部世界互動。所有的這些行業都需要圖像識别,例如工業檢測上,而且現在有一些機器人公司或者做智能機器的公司就會用到我們的圖像識别技術。

機器之心:現在人工智能越來越熱,外界讨論也比較多,你對這個領域研究了很長時間,也在這方面創業,你對這個行業有什麼看法?

李明強:人工智能不像其他行業和技術,其他行業是從需求出發,但人工智能是自上而下的,最初設定了一個高高在上的技術目标,可以來解決所有問題,然後再降下來,是以它自誕生之日起就會伴随着泡沫。是以,整個業内還是要靜下心來考慮一下,怎麼落地和産品化,怎麼滿足使用者需求。

下一篇: JDBC事務

繼續閱讀