天天看點

改變命運的知識,也會改變人工智能的發展軌迹?

2017年,知識經濟日益火爆,分答、知乎、得到等知識平台可謂如日中天。眼下這種火爆已在從人類延展到機器。網際網路巨頭紛紛對知識變得饑渴起來,知識成為資料之後的又一個香饽饽。

網際網路巨頭對知識越來越青睐

兩三年來,網際網路大佬言必談資料,特别是大資料。曾有人戲稱馬雲應該叫“Data Ma”,因為不懂技術的馬雲,十分鐘愛談大資料,馬雲的“五新理論”中有一個是“新能源”,其認為未來機器吃的不是電,而是資料。其外,李彥宏、馬化騰等大佬關于大資料都有不少言論,馬化騰說資料是AI應用的四大要素之一,李彥宏也提到:“由資料、算力、算法‘三位一體’共同驅動的人工智能或将成為推動經濟增長與時代進步的新引擎。”

資料是AI的基礎,也是網際網路公司的重要資産,通過算法挖掘可以形成可觀價值,是毋庸置疑的。不過,我觀察到,今年網際網路巨頭們對于資料談得少了,談知識反而越來越多。

最具代表性的是百度,新春内部演講中,李彥宏說,“知識圖譜(包括需求圖譜、使用者畫像等等),這些東西都是百度整個人工智能當中非常基礎的構件,也是我們相對于其他任何一家公司的優勢所在。”“非常”一詞足見李彥宏對于“知識”的重視。百度總裁兼COO陸奇在今年AI開發者大會上則指出,“知識就是力量,有了知識我們可以做預測、做自動化,解決任何重要的問題,人類曆史就是改造世界、認識世界的曆史,AI就是幫助人類認識世界、改造世界的工具,AI是人類曆史上重要的裡程碑。”在業務層面,百度在知識上的底層布局就是知識圖譜。

除了百度谷歌在知識圖譜上也一直在積極布局。2012年5月,Google就推出了知識圖譜(Google Knowledge Graph),利用其優化搜尋結果。2013年,Google收購自然語言處理技術公司Wavii,将後者技術與Google Knowledge Graph整合。2015年谷歌推出醫療版知識圖譜。現在谷歌語音搜尋、Google Assistant、Google Lens、Google Home諸多軟硬體産品均已接入谷歌知識圖譜。

改變命運的知識,也會改變人工智能的發展軌迹?

不隻是百度、谷歌等搜尋引擎在知識圖譜上布局,阿裡、華為等玩家也已在部署知識圖譜,讓自己變得更有知識。從Data到Knowledge,為什麼網際網路巨頭們青睐的事物會有這樣的轉變?

知識對于網際網路究竟有何價值?

知識對于網際網路第一層價值是内容或者說資訊價值——就像知乎、分答、百科、知道等等知識類産品一樣,它們滿足了使用者的知識生産、共享、擷取等需求。不過,長期來看,知識對于網際網路的價值主要在于,起到一個從資料到AI的“橋梁”作用,它不可或缺且會日益重要。

第一,知識讓機器具有認知能力。

每家網際網路公司都在強調自己擁有海量資料,不過,不同資料價值是截然不同的。從應用場景看,搜尋資料、社交資料、電商資料、支付資料、視訊資料等等的價值可以說大不相同;從資料形式看,結構化與非結構化的資料價值不同,前者更可能被機器利用;從資料性質看,感覺類和知識類資料價值截然不同,前者是視覺、聲音、運動等實體感覺資料;後者則是知識類資料,“人類對物質世界以及精神世界探索的結果總和。”隻有人類才能産生、創作、總結和了解的資料,比如支付、搜尋、創作、語言等等資料。

而知識類資料最核心的價值在于,可讓機器形成認知能力。百度AIG(人工智能技術體系)負責人王海峰曾提出,AI可以分為感覺層和認知層,感覺是人類和動物都有的能力,機器一定程度也可以比人類更強;但認知是人類的專屬能力。機器感覺能力目前已趨于成熟(比如百度世界大會上語音技術可以實時生成字幕,再比如圖像識别很多時候比人準),但認知能力還有很大的提升空間。知識類資料可以讓機器在感覺能力的基礎上形成認知能力。

第二,知識可以讓機器與人類對話。

我們要機器成為合作夥伴也好,智能助理也罷,前提就是要能夠與機器溝通,就是互動。目前我們與機器的主要互動方式,是反人性的——用輸入法打字即便再簡單也需要一定的學習成本,隻有觸摸、語音、視覺這樣的互動方式才是自然的,是小孩子都擁有的能力。

改變命運的知識,也會改變人工智能的發展軌迹?

盡管眼下已經有語音互動技術、圖像識别技術,但整體來說還不夠智能,比如語音無法了解長句子等複雜句式,再比如圖像識别更多是對條形碼等簡易圖檔有效。要機器實作與人類的自然對話,像一個真正的助理那樣與使用者互動,就需要它儲備足夠多的知識。有知識儲備的機器有了認知,就不隻是擁有語音或者圖像識别能力,而是具備語義了解能力,從聽清進步到聽懂,從看出來更新到看得懂。

再舉個例子,一個真正的秘書不隻是可以識别主人,還能根據主人表情揣摩其情緒,進而做出響應。iPhone X的Face ID目前隻能識别主人的臉,如果有了知識就可以“讀臉”揣摩主人情緒,比如使用者愁眉苦臉時可以推薦一首歡快的歌曲。百度世界大會上李彥宏示範的“火車司機疲勞識别”,本質上就是在圖像識别技術上加載了知識圖譜後的成果,機器可以了解“什麼表現是疲勞駕駛”。

第三,知識可以讓機器智能決策。

如果機器隻有感覺能力,本質上隻是改變資料輸入方式——機器的資料輸入自動化、無人化、實時化,進而提高輸入效率、降低人力成本,增加采集場景。然而機器的本質還是傳統意義上的功能計算機。就算可以做出決定,本質也隻是“if this then that”的、在人類設定的規則下的按部就班。

然而,當機器通過足夠多的知識建立認知能力,對世界有自己的了解後,就可以進行智能決策。一個例子是AlphaGo——相對于深藍等基于規則的下棋程式不同,它每一步的走棋,是基于對圍棋規則的認知以及下赢對方的目标而進行的,它是真正意義上的AI下棋。AlphaGo Zero則是進階版,它可以不借助任何圍棋棋譜與人類經驗自我學習進步,等于說是建構了一套自主的知識體系,它成為知識的輸出者,棋譜也值得人類棋手去學習。當然,前提也是有圍棋規則這個人類知識的輸入。

我們不論是招聘秘書,還是聘請管家,都希望找一個“有一定想法”的,會主動思考和自我決策的人,而不是找一個讓TA做什麼才做什麼的人。同樣的道理,要機器有“一定的想法”,能夠自我決策,變得智能,就必須要有足夠多的知識輸入,讓其形成認知能力。

是以可以看到,在AI時代,我們要讓機器真正意義上認知這個世界,要讓機器與我們更自然地互動,要讓機器可以智能做出決策,都必須要輸入足夠多的知識給機器。如何給機器輸入知識?核心技術就是知識圖譜,它就像AlphaGo“吃”的棋譜一樣,是将人類掌握的不同知識進行關聯存儲于計算機中,形成網狀結構并持續動态完善,讓機器不斷汲取知識,對世界的認知日益完善。

看到這裡就能明白,為什麼李彥宏會說知識圖譜是百度整個人工智能非常基礎的構件了。知識圖譜對于人工智能可以說是不可或缺,陸奇說,“AI革命的本質是快速的、自動地擷取知識”,王海峰則認為知識圖譜是AI的基石。“如果知識是人類進步的階梯,知識圖譜就是AI進步的階梯”,知識是AI的基礎已得到行業共識——有資料的巨頭企業很多,然而有知識圖譜技術的巨頭卻屈指可數。

知識圖譜到底有哪些應用場景?

說到語音技術,人們就會想到Siri;說到圖像技術,人們會想到iPhone X的Face ID;說到知識圖譜,人們可能會想到百度搜尋結果右側的關聯内容,這是百度2014年便已大規模應用的知識圖譜産品,3年應用量增加了160倍。

改變命運的知識,也會改變人工智能的發展軌迹?

不過,知識圖譜的應用場景遠不止于搜尋,它跟自然語言處理技術一樣更為底層,很多時候是透明的,許多AI應用,背後都在應用知識圖譜技術,目前這些場景最典型:

1、資訊。

資訊行業正在迎來一場大變革——内容創作進入自媒體時代,内容分發資訊流日益流行,而資訊流的基礎就是個性化推薦技術。要做好個性化推薦技術隻需做好兩點:一個是了解使用者的閱讀興趣;另一個是了解資訊内容。然而兩點要做到都不容易,了解使用者的前提是足夠多的使用者興趣資料,了解内容的前提則是知識圖譜,平台必須要有一定的“認知”才知道不同内容意味着什麼,适合哪些興趣的使用者,而不是簡單的關鍵詞比對。

舉個例子,一個文章内容是馬雲最新演講解讀,是将其推薦給電商行業人士,還是希望獲得成功的年輕人,還是李彥宏等企業家們?每個人都可能感興趣,如何推薦就要結合對内容的認知,以及對使用者興趣以及目前場景的了解,知識圖譜就派上用場了。特别是在視訊領域,要了解内容不是靠文字識别,而是要靠機器視覺技術,對内容本身的了解難度更高,知識圖譜更重要。

現在,今日頭條、百度、一點資訊、搜狐、網易、企鵝、UC、微網誌等等都在做資訊流。百度世界大會上宣布百度資訊流月活超過6億,相比去年5月剛推出時日均閱讀量提升105倍,短視訊日均播放量提升169倍,這個成果,與知識圖譜的優勢密不可分。

2、泛娛樂。

看上去,娛樂與人工智能八竿子打不着關系,更與知識圖譜沒什麼瓜葛。實則不然,傳統娛樂或許确實不需要什麼資訊技術,然而新娛樂時代,技術重要性與日俱增。今年百度世界大會上,愛奇藝CEO龔宇的演講是讓人印象十分深刻的環節,徹底颠覆了許多人對娛樂的認知。

愛奇藝通過自制内容戰略取得突破,推動其會員模式成功,将于2018年IPO。很少人知道的是愛奇藝一直很強調對技術的應用,創作、制造、宣發、營銷、預測等等環節都應用AI技術。比如基于機器學習的多時間視窗預測電影票房,提前半年方差準确率高達77%;比如《中國有嘻哈》這個小衆音樂節目的成功,也得益于愛奇藝對年輕閱聽人使用者畫像再采取針對性措施;再比如愛奇藝可以基于娛樂知識圖譜來預測哪個藝人會成為下一個黑馬。

早在2015年,愛奇藝就建立了“視訊深度學習産學聯合實驗室”,計劃通過可視計算、機器學習、大資料挖掘算法和自然語義分析,挖掘人與視訊間的多元關系,建構視訊知識圖譜和視訊推薦系統,提升愛奇藝智能推薦和流量、票房預測精度。百度正在輸出AI能力,相信愛奇藝會與大股東百度有更深層次的合作,特别是視訊知識圖譜領域,愛奇藝将是一個絕佳場景。

3、金融。

金融是百度最先商用的AI場景,正如李彥宏所說:“金融的資料化本質,加上業務規則清晰,使它成為人工智能最佳的應用場景。”金融的知識相對垂直,是以也非常适合與知識圖譜技術結合。我記得2015年,百度就已将知識圖譜應用在股票領域,旗下産品股市通通過資料、資訊與股票的關系,以及股票與股票之間的關系,在股票領域首創知識圖譜,實作智能選股。不隻是百度金融在應用知識圖譜,整個金融行業都在将知識圖譜應用在個人征信、貸款風控、保險銷售、保險策劃、金融指數、反欺詐、客戶管理管理、智能客服等領域,出現了不少提供金融AI技術或者是金融知識圖譜服務的創業公司,百度金融也在積極地推進智能金融科技的開放,包括金融知識圖譜的開放。

4、手機。

智能手機2017年最大賣點是全面屏,同時還有一個亮點是AI——iPhone X、華為Mate 10等等旗艦機都有不少AI元素。怎樣的手機稱得上真正的AI手機?關鍵在于智能化功能和智能化能力。智能化功能上除了像FaceID這樣可以識人外,還要有比Siri更聰明的助理,真正意義上成為使用者的個人助理,給使用者做決策,這離不開知識圖譜技術。智能化能力上就是要在晶片、系統、雲端形成AI能力,可以越用越快、安全等等,要實作這些能力需要手機領域的知識圖譜。

可以說,智能手機要AI化離不開資訊/服務知識圖譜和手機知識圖譜。不過,AI技術、雲服務以及知識圖譜技術都是網際網路巨頭擅長的事情,是多數手機公司的短闆。怎麼辦?最近百度與小米就AI達成深度合作,聯系到此前DuerOS與HTC、vivo等合作來看,百度未來很可能會給手機公司提供知識圖譜技術助力智能手機真正“智能”起來。

知識圖譜的應用場景遠遠不止這些,它是AI的基石,理論上來說每一個AI場景都是知識圖譜的場景,而AI将改變各行各業,其應用場景之廣泛可想而知了。截至目前,百度知識圖譜已經應用到幾十個領域,百度知識圖譜技術創始者王海峰曾在一次演講中表示:“人工智能與傳統産業融合的過程中,要想為這個行業提供更好的服務,就需要對這個行業進行定制化,要有行業知識,這時候就需要在通用知識圖譜的基礎上,有相應的行業知識圖譜,進而幫助這個行業提升生産力,幫助這些行業、産業更新。”從這段話可以看出,百度知識圖譜也會開放給更多行業,讓各行各業吃上知識圖譜。

繼續閱讀