天天看點

張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?

機器之心釋出

聯想創投2020 ceo年會

近日,在聯想創投 2020 ceo 年會上,清華大學講席教授、智能産業研究院院長、美國藝術與科學院院士、百度前總裁張亞勤先生帶來了《未來科技趨勢展望》。

張亞勤表示,數字化的 3.0 時期已經到來,數字化的範圍已從内容、社交和企業服務領域向實體和生物世界進行延伸,将我們熟悉的城市、工廠、電網、家庭向智慧交通、工業網際網路、智慧醫療等方向進行更新,為了完成實體世界的「數字化」,資料需要更清晰地讓數字世界和現實世界一一對應,通過深度學習,計算機不斷加深着對于人類世界的認知。

随着資料的海量爆發,如何突破目前的算力,成為了一代又一代科學家攻克的關鍵,香農定律、馮諾依曼架構和摩爾定律奠定了傳統計算與通訊範式,如何突破已經接近極限的三種理論?張亞勤表示,需要通過對資訊的重新定義,制定新的計算範式、計算體系和通訊架構,而他們又給産業帶來了新的機會。為此,中國需要抓住機會,引領數字化的 3.0 時代和第四次工業革命浪潮。

張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?

清華大學講席教授、智能産業研究院院長、美國藝術與科學院院士、百度前總裁張亞勤發表演講

以下為張亞勤演講全文:

大家下午好!非常高興能夠來到聯想創投 ceo 年會,作為中國 it 的 icon,聯想 36 年曆經坎坷,也取得很多進展,尤其是聯想的「3s」戰略,和我今天要講的内容「智能技術趨勢」非常吻合。

數字化程序的演變與 3.0 時代的到來

回顧 it 産業 30 年發展曆程,最大的特征就是數字化。第一波數字化開始于 80 年代中期,也是聯想成立的時期。圍繞自然界的内容表述,數字化的範圍包括音樂、視訊、聲音、圖像等,算法和标準有 mp3/4、h.26、avs 等;随着 pc 的推出,又出現了 ppt、excel、word 文檔數字化。

第二波數字化開始于 90 年代中期,在内容數字化的基礎上加上網際網路、htdp、html 的産生,進而催生消費者網際網路,從早期的 pc 網站、門戶,到搜尋、電商、社交,再到後來的共享經濟、zoom 等視訊通訊、數字貨币和移動支付。從産品體驗和規模等方面來看,中國在移動網際網路時代下的消費互聯領域整體領先于世界。

與此同時,企業也在數字化方向不斷細化與革新,比如 erp、crm、hr、supply chain、bi、workflow 等管理系統的誕生。在雲領域,中國已在逐漸追趕基礎設施雲的建設,逐漸縮小與其他國家在規模效應上的差距。

我認為,中國軟體的發展跳過了以「軟體作為産品」的時代,直接進入以「軟體作為服務」的時代。網際網路本身就是「軟體作為服務」的一種符号,作為一種新軟體模式,我認為大量 saas 公司會在 5 年之後陸續出現,未來 saas 平台會有很大的機會。

現在,我們進入了數字化 3.0 時期,也即智能感覺時代,這個階段發生了兩方面轉變:一是實體世界的數字化,我也把它叫做「網際網路的實體化」——工廠、電網、機器,乃至所有移動裝置、家庭、城市都在向數字化發展。在這個過程中出現了相較于過去上千甚至上萬倍的海量資料,比如一輛無人車每天産生的資料量大約 5-10t;相比于資料主要提供給人員輔助決策的 1.0 和 2.0 時代,數字化 3.0 時期 99% 以上資料在機器間傳輸,到最後一環節才傳遞給人員。

第二個方面的轉變生物世界的數字化,人們的細胞結構、所有器官乃至整個身體都在數字化,整體數量級比實體世界大上千倍。從虛拟、宏觀到微觀,整個數字資訊世界、實體世界和生物世界正在走向融合。此外,「數字孿生」技術可以讓我們更加清晰地将實體世界和生物世界進行一一對應。

有了大資料之後,我們還要實作資料的結構化和智能化。在人工智能的 60 年發展過程中,有「冬天」也有「春天」。人工智能根據不同算法大緻分為兩類:一種是邏輯推理,是以知識為驅動的算法;另一種是以大資料為驅動的算法,兩者都運用到了人類大腦的基本認識、基本模型和決策模型。

過去十年裡最流行的深度學習,基本是以大資料、大計算、大模型算法來驅動,其中包括 alphago、alphazero。深度學習确在過去一段時間取得很好的進展,比如 gan、transfer learning,到現在的 gpt-3 等等。未來,深度學習還有很大發展空間,其算法需要結合符号邏輯、知識型推理和更多模型的因果關系和新的範式,目前對于産業來講,未來五至十年,深度學習還會是最重要的算法。

根據 google ai 負責人jeff dean 的觀點,人工智能的三大要素是資料、算法和算力,實際上是資料加上 100 倍的算力,并且算力比資料更重要 100 倍。這個觀點我不完全同意,但我同意在目前深度學習架構下,算力十分重要。

突破香農、馮諾依曼、摩爾瓶頸,推動算力發展

怎麼突破目前的算力?過去 60 年,傳統計算與通訊範式有三個重要原理:香農定律、馮諾依曼架構和摩爾定律。

香農定律,定義了熵、信道容量和失真情況下壓縮極限,目前,我們距離這三個極限已比較接近。馮諾依曼架構是指五個最基本子產品加上程式存儲原理,是圖靈意義下最好的一種實作,但它的瓶頸在于資料和計算的分離。在深度學習中,龐大資料量本身就會形成一個瓶頸。最後還有摩爾定律的限制。

如何突破這三個瓶頸?

首先,我們需要對資訊做一個重新的定義,制定新的計算範式。另外,進入網際網路時代,香農理論從點對點通訊延伸到多使用者資訊論,但真正的理論架構并沒有太大進步,是以需要更多理論層面的模型更新,否則深度學習就很難引入因果關系和模型。

目前,圖像視訊編碼技術的發展已經達到性能極限,如何用 ai 徹底、大幅度地進行改善也需要我們的思考。

此外,還需要新計算體系和通訊架構,創新傳感器類型。傳感器能夠擷取各種各樣的資料,是以非常重要。有觀點認為,人用「小資料」就可以做決策,但我認為大資料是機器的優勢,雖在決策方面與人相比稍有欠缺,但在擷取各種不同資料時比人更有優勢。

同時,需要新模态。深度學習需要的 tensor products、線性代數、布爾代數等要素在傳統的馮諾依曼架構下不易實作,通過研發 gpu、asic 等技術加速并徹底形成新架構成為了大趨勢。除了傳統的英特爾、amd,谷歌、百度、地平線、寒武紀等公司也在做這件事,在新架構産生之後,就會随之産生更多新算法、新模型、新型晶片,這将是一個非常大的機會。

這是一個我在百度啟動的項目:昆侖晶片,這是一個大型晶片,主要用于大型訓練,已經在百度部署。第一代昆侖晶片能在 150 瓦的功率下實作 260 tops 的處理能力。第二代昆侖晶片采用 7nm 先進工藝,相對于第一代晶片而言,性能提高了 3 倍。

核心基礎設施「abcd」帶來智能時代的颠覆性改變

計算、通訊、新架構、新算法,它們給産業帶來的新機遇,就像聯想的「3s 戰略」,在 it 行業不斷更新的背景下,為整個産業帶來了新機遇甚至是颠覆性的改變。

張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?

抓住新的行業機遇,我們正在面臨第四次工業革命,如果說前三次工業革命中國是旁觀者,但在這一次,中國有機會在很多方面成為引領者。

面向第四次工業革命,我們希望能夠打造成一個國際化、智能化和産業化的智能産業研究院(air)。我們有三個方式達到這個目标:最重要的是吸引一流人才,特别是擔任過 cto、研究院院長的人才,另外還要有深厚的學術背景和豐富的企業經驗;其次,研究院還要培養目前我們還比較缺乏的、具備深度大系統思維能力和頂層設計能力的 cto 和頂級架構師;最後,我們要打造核心技術并逐漸将其發展為公司。

目前,我們剛剛起步,除我之外,還有兩位聯合合夥人,一位是馬維英博士,他是電氣電子工程師學會院士,位元組跳動副總裁、人工智能實驗室主任,也是微軟亞洲研究院前常務副院長;另一位是趙峰博士,他也是電氣電子工程師學會院士,還是前海爾集團 cto、副總裁,全球 lot 教科書編寫者。這兩位聯合合夥人非常符合我剛才的描述,不僅發表很多學術文章,同時又有豐富的産業經驗。

我們聚焦于三個研究領域:智慧交通、工業網際網路、智慧醫療。我認為,智慧交通能夠為整個社會和産業帶來巨大的影響,作為未來 5-10 年最有挑戰的技術,無人駕駛還能夠通過狹義的人工智能解決自身的難題。我們還聚焦工業網際網路、iot、智能感覺,因為他們是數字世界和實體世界的接口;在我們看來,ai 在未來十年還可以深層次地改變整個醫療健康産業,不局限于 ai 機器人針對病人和醫護人員的協助性工作,還包括制藥、蛋白質結構預測等,實作以上三領域的發展都需要基礎設施「abcd」,即 ai、big data、cloud、device,以及學者對基礎科學研究的支援。

在 air,我們采用完全開放的模式,希望和整個産業有多種形式的合作,比如聯合實驗室、聯合科研項目、共同孵化項目,我們也希望能夠通過這個機會認識更多創業者,讓大家更了解 air,大家齊力建構更大的生态圈。

繼續閱讀