天天看點

從百度視訊看大資料與人工智能

一,大資料個性化決策

個性化決策無疑是難度最高的,因為個性化決策是根據使用者行為記錄來為使用者做出相應的推薦。

百度在無線端有大量的産品,其中使用者數過億的APP就多達14款。百度内部有專門的團隊,分析使用者在這些APP中的行為,利用算法估算使用者的年齡、性别、職業、興趣等特征。

這一技術在百度工程師那裡稱為使用者模組化,這些資料來自于使用者手機裡安裝的百度應用如“百度地圖”、“百度貼吧”、“百度魔圖”外加一些使用百度開放接口的應用諸如“糗事百科”等等,百度是能夠通過這些資料進而來為使用者建立動态模型。

百度視訊的個性化推送是典型的利用群體智慧來解決個體需求的例子。傳統的視訊APP通常以廣播的方式為使用者推送視訊,即每個使用者收到的消息内容是一樣的,無法滿足使用者個性化的需求。百度視訊的做法是,分析使用者的曆史觀看記錄,同時結合使用者的性别、年齡、地域等特征,為使用者建立興趣模型,将使用者可能感興趣但卻未觀看過的視訊推送給使用者。

比如一個經常上動漫貼吧的使用者,百度通過搜集大資料後判斷其是20歲左右的大學生,在個性化推送上就和其他人群就有所不同,可能就會推送一些大學生圈子裡比較流行的動漫以及韓劇之類。

簡而言之,使用者使用的百度系以及帶有百度接口産品的産品越多,百度就能越能為使用者建立個人模型,所有使用過的産品的資料會彙聚到百度雲端,人工智能最後再繪制出一個人的畫像,百度再根據這個畫像再為每個應用進行大資料決策推送,再根據使用者的回報結果進行疊代試錯,當然這是機器學習的部分,不必要再深入讨論下去。我畫了一個簡單的百度個性化推薦原理。

二,大資料群體化決策

1,個體與群體的價值思辨

之前我對百度個性化推送提出過缺陷的質疑,一旦當使用者更換手機之後,百度就無法再次為其建立個人畫像模型,進而也就失去了對于個人的意義,百度又要重建立立個人資料,十分麻煩。

而深入了解百度的大資料之後讓我感到更有一番深度,百度的大資料并非隻為個體使用者服務,更重要的是建立群體宏觀行為模型,通過這一整套模型為群體進行宏觀決策,而群體決策部分的重要戰略意義遠遠大于個體意義。

我對此的了解為:如果我們将人類整體行為看做為個體行為,那麼同樣的作為個人總有一些誤操作,一些随機的非主流的邊緣操作,而這些邊緣操作對于機器學習來說隻是噪聲而非信号,是需要進行過濾的,那麼機器就需要過濾掉這些沒有價值的資料,将有價值的信号資料沉澱與固定下來,為整體行為進行決策。

是以在某種程度上,我們都會陷入個性化至上的錯覺,而忽略群體資料決策的價值。再回到百度之前的個性化推送功能,這些推送一定是事先經過群體過濾過後的信号,再向使用者推送後才會更戳中人心。比如百度通過資料判斷出最新流行的韓劇是《來自星星的你》,而不是過氣的《大長今》,繼而向使用者推薦《星星》,這些都不是人工的,完全是自動生成的。

也就是,這場思辨中我得出了一個關于大資料的重要結論,機器為個人的資料提供個人喜好的小範圍資料,而群體大資料決策後的結果在為個體擴大範圍。

個性化推送為個人提供确定性,為群體提供不确定性。而群體決策為個人提供不确定性,為群體提供确定性。

二者的噪聲互為價值,二者的信号互為幹擾。

2,人工智能或許永遠無法超越人類

上次我和趙雲峰還有劉峰老師在3W咖啡裡讨論了人工智能的未來,其中我們談論到了圖靈測試,我們分析到圖靈測試的程式雖然越來越厲害了,但這依然是工具而已,本質上人與人的博弈罷了,機器永遠無法脫離人類進行自學習。

那麼這裡回到百度視訊上來,百度目前做到了平均給每部視訊貼上上百個标簽,而且這些标簽根據時間還在不斷的更新與疊代,不僅如此,這些标簽還在不斷的自行關聯。是以百度視訊能夠做到,搜尋諸如“高智商電影”會出現《盜夢空間》、《禁閉島》、《源代碼》等等這樣的關聯。

有人問,這些成百上千的标簽都是人工比對的嗎?如果這樣,百度人力需要很多啊。實際上标簽是機器全自動做好的。但制定标簽還是需要人,機器應當是通過使用者先搜尋到某個關鍵詞然後經過一系列的行為判斷該關鍵詞與某電影的關系,通過大量使用者的反複出現的資料,機器再建立出這些關聯。

假如有一天機器能夠完全通過獨立的自我學習,通過自身而不借助人類去關聯這些标簽詞彙與電影的關系。那一刻才能算是真正實作了人工智能。

這隻能說明我和趙雲峰還有劉老師在3W咖啡的談話是多麼無聊的正确,對于機器來說,人類就像他們的發動機,他們無法做到産生真正的意識,他們無法像人類一樣進行自我追問一切的起源,0與1的結構。

是啊,人類是多麼孤獨,因為隻有人類才會意識到自己的孤獨,而機器不會。但又或許,是我們正在共同創造機器的意識吧,這個超級有機體将會成為我們。

從百度視訊看大資料與人工智能

繼續閱讀