天天看點

科學觀察:關于資訊技術驅動未來産業的若幹思考丨2023松山湖科學對話

作者:科學參考
科學觀察:關于資訊技術驅動未來産業的若幹思考丨2023松山湖科學對話

本文刊載于《中國科學院院刊》第5期“科學觀察”。本文根據2023年4月25日《中國科學院院刊》2023年編委會特别活動——“松山湖科學對話”第三場“關于資訊技術驅動未來産業的若幹思考”中專家觀點整理而成,作者為該對話的主持人及嘉賓,署名方式以姓氏筆畫為序。

包雲崗1 劉 淼2,3 陸品燕4 邱錫鵬5 須 江6

1 中國科學院計算技術研究所

2 中國科學院實體研究所

3 松山湖材料實驗室

4 上海财經大學 資訊管理與工程學院

5 複旦大學 計算機科學技術學院

6 香港科技大學(廣州) 微電子學域

黨的二十大為新一代的資訊技術産業指明了方向,要以推動高品質發展為主題,建構新一代資訊技術産業新的增長引擎。資訊技術領域市場巨大,技術競争激烈,比傳統産業更具壟斷性和技術排他性。李國傑院士指出,決定市場勝負的主要因素不是單項技術,而是有優勢的資訊技術體系。一旦一個技術體系占據了主導權,後發者就很難在同一賽道實作趕超或取代,而原賽道的領先者也很難在新“藍海”延續其成功。是以,形成新的技術體系必須把握住新應用出現時的寶貴機遇。随着新一輪科技革命和産業變革突飛猛進,科研範式發生深刻變革,把握目前資訊技術發展的機遇期,對于加快建構新發展格局、加快建設科技強國具有重要意義。

1 人工智能的發展和應用成為資訊技術發展前沿的主要趨勢

人工智能的快速發展正在對人類社會産生重大影響況

《麻省理工科技評論》(MIT Technology Review)近 5 年釋出的年度“全球十大突破性技術”(10 Breakthrough Technologies)中,涉及人工智能(AI)的相關技術頻頻入選。例如,2023 年“制作圖形的AI”和“改變一切的晶片設計”;2022 年“終結密碼”“AI 蛋白質折疊”“PoS 權益證明”“AI 資料生成”;2021年“GPT-3”“資料信托”“數字接觸追蹤”“TikTok 推薦算法”“多技能 AI”等。從這些入選的突破性技術可以看出,人工智能在應用側和基礎設施層面扮演着重要的角色。在應用側,人工智能在許多領域(如生物學、圖形學等)發揮着重要作用,其中 AI 助理也正在被廣泛應用。在基礎設施層面,支援 AI 應用的基礎設施面臨着許多挑戰。例如,如何更好地生成、管理和保護資料,以及如何提供足夠的算力等。總體來看,人工智能新興的問題主要集中在應用側和基礎設施側,這也是目前的重點研究方向。

目前,資訊技術領域中蘊藏着巨大的發展機遇。随着新的資料挖掘和應用算法的推進,資料驅動的工具對許多基礎科學研究具有重大意義。例如,人工智能的快速發展及應用對自然科學(如生命科學、材料科學等)有着巨大的推動作用。但同時,資訊技術領域的發展也面臨着巨大挑戰,摩爾定律逐漸失效。一方面,資訊技術的發展需要更多的算力;另一方面,一些新的計算方法,如量子計算、光計算等,對計算機本質的認識重新提出了挑戰。例如,在重新設計量子計算機系統時,人們會發現目前并未完全了解計算機本質。這是在資訊技術領域特别是計算機領域中的挑戰,同時也是一個很大的理論機遇。

從整個資訊技術領域發展的角度來看,人工智能的疊代性類似于摩爾定律——随着資料量、訓練量和模型大小的增加,其能力不斷提升,而且增長仍然沒有停止。這種快速疊代不僅對人工智能本身的能力提升有幫助,同時也對傳統産業和學科發展有巨大的助力,因為有了更多的資料,科研過程可以加速進行。是以,人工智能的發展對整個社會都有積極的影響。

資訊技術領域學術界與産業界結合度仍需加強

資訊技術學界與産業之間存在密切的聯系,但現在學術界關注的問題與産業界實際關注的問題存在一定的差距仍是不争的事實。目前,急需從産業應用中提煉出關鍵問題,并将這些問題回報給學術界進行研究。

以理論計算機學科為例,理論計算機學科主要研究計算的可行性,在很大程度上是計算機科學和資訊科學的基礎;理論計算機可以看作是計算機和資訊處理世界中的基本規律,類似于實體學中的客觀規律。在計算機被創造之前,理論計算機就作為數學的分支存在,關注計算的基本理論、算法和複雜性,計算機發明制造、算法應用等許多劃時代革新都建立在它的基礎上。是以,理論計算機學科在計算機科學領域中扮演着重要的角色,處在計算機科學與其他學科交叉的前沿。理論計算機科學是方法論學科,它的價值蘊藏在計算思維中,具有很強的普适性,能夠在計算機、經濟學、自然科學、工程等多個領域交叉,能夠在許多原來缺乏語言描述或難以求解的複雜問題和情景中,提出新問題、新視角和解決思路,這不僅僅對于計算本身有意義,對于實體世界和人類社會也有重要意義。

理論計算機和應用之間的比對是一個非常重要的前沿方向。在過去,理論計算機是先有理論,再有計算機;計算機的行為是由人來設定的,人類完全能夠了解。但是随着計算機的複雜度越來越高,包括 ChatGPT 模型等的複雜度已經越來越接近自然科學,這時需要做一些實驗來探索驗證其理論,進而與原始的理論産生了不一緻。是以,如何将理論與應用更加比對是一個非常重要的前沿方向。當理論與應用不比對時,需要發展新的理論或将理論應用的抽象性更好地呈現。例如,在深度學習方面,應用非常前沿,但理論認知還不夠。是以,需要探索如何使理論和應用結合更加緊密。該方向既與基礎研究密切相關,也涉及應用研究,同時也受到好奇心的驅動。2020 年華為成立了理論計算機實驗室,研究方向涉及工業應用中算法複雜性相關的問題。理論計算機學科在工業應用中大有用武之地,尤其是在華為的資訊與通信技術(ICT)、光、速通、晶片、系統、應用和雲服務等方面都有大量的應用。

目前中國企業在高新技術方面有很大的探索空間,但因同時面臨較大風險而止步不前。雖然企業是技術轉移轉化為産品的主體,但在探索新技術方面涉及較多基礎研究投入,企業面臨着較大的風險,而很多企業不願意承擔這種風險。這也導緻了目前大陸在複雜晶片設計和電子設計自動化(EDA)工具方面存在一定的短闆。

以處理器晶片為例,處理器晶片需要軟體和硬體的配合,是一類相對設計比較複雜的晶片。近幾年,“開源晶片”(将開源軟體的模式應用到處理器晶片設計中)的設計方式代表了處理器晶片領域的新方向。例如,RISC-V 新型處理器的架構,受到全球關注。可以像通信領域的 5G 标準那樣,聯合全球力量共同建構晶片生态,共同制定标準,各國可以在産品層面進行競争。未來晶片的設計希望通過更加開放的方式,充分發揮出市場規模大、技術人才多的中國優勢。近年來,中國科學院計算技術研究所發起的“香山”開源晶片項目,吸引了國内外企業參與聯合開發。

人才培養是資訊技術領域發展的重要動力儲備

大陸科技事業發展進入新階段,創新成為引領發展的第一動力。在本土培養出規模宏大、具有突出創新能力的青年科技人才,是大陸科技事業實作可持續發展的動力源泉。

如今,大陸科研院所和高校在基礎理論與核心技術方面投入了大量資源來培養人才、全力攻堅。例如:2019 年 8 月,中國科學院大學啟動了“一生一芯”計劃,通過讓大學生全程參與處理器晶片從設計到生産、運作的全過程,培養具有紮實理論與實踐經驗的處理器晶片設計人才,提高大陸處理器晶片設計人才培養規模,縮短人才從培養階段到投入科研與産業一線的周期,培養更多國家緊缺的晶片人才。該計劃已經開展了 5 期,有超過 2000 名學生參與,初步形成了大規模的高品質晶片設計人才培養方案。香港科技大學(廣州)微電子學域組建團隊,建立了一系列中央研究設施,包括材料、器件微納加工實驗室和 EDA 研究中心,旨在為微電子領域培養人才并推動産出更多的原創技術。近期,該團隊在光電融合晶片、驗證和多處理器高速仿真等領域取得了一些進展和原創性發現。

在資訊技術領域的快速發展中,科學界的合作方式可能會出現一些變化。以前的學校和研究所的組織結構可能需要進行調整,以适應人工智能所帶來的一系列變化。這些變化也會影響到學生的課程設定和教育方式。人工智能所帶來的沖擊讓現有的教育體系顯得跟不上技術進步的潮流。是以,需要不斷地調整教育方式群組織結構,以适應新的科技發展趨勢。

2 資訊技術将推動自然科學研究加速發展

人工智能成為推動基礎科學研究加速的重要動力

事實上,資訊技術已經逐漸滲透到自然科學研究中。例如,資料庫和人工智能等方法已經成為日常科研研究中必不可少的工具。

在資料科學領域,圖靈獎獲得者吉姆 · 格雷(Jim Gray)提出了第四範式——在實驗觀測、理論推演、計算仿真之後的資料驅動的科學研究範式。近幾年第五範式被提出,這類新的科學研究範式是以智能為研究目标的浸入式具身研究,基于資料科學本體論認識。可以猜測“第五範式”和第四範式一樣,都會以資料為對象;不同的是,“第五範式”更側重于人、機器及資料之間互動,強調人的決策機制與資料分析的融合,展現了資料和智能的有機結合。

人工智能與科學研究結合可以幫助科研人員提高科學研究的效率和準确度。例如,在數學、統計學、實體學和計算機科學等領域有交叉背景的研究人員,就可以将人工智能與高性能計算結合起來,為分子動力學模拟和第一性原理模拟提供強大的工具。通過超級計算機的加速,研究人員在模拟原子方面取得了很大的突破,模拟規模從之前的百萬級别提升到億級,模拟時間已經提升到了納秒級别,這對實體學和材料學研究都有很大的幫助。随着科學和人工智能的不斷結合,未來将會有更多的突破。

未來,資料将成為科學研究的基礎資源,資料庫将成為重要的科學基礎設施,像大科學裝置一樣滋養各學科成長。松山湖材料實驗室聯合中國科學院實體研究所近期釋出的材料科學資料庫(https://Atomly.net),利用高通量計算和資訊化技術将高品質科學資料帶給大陸科研工作者。在資訊技術助力下,物質科學發展進入了“大資料+人工智能”時代,打破了國外在此領域中的壟斷地位,為廣泛支撐大陸物質學科的發展打造了優質基礎資料及工具,并已經開始發揮效力,切實地推進了領域發展。

人工智能對整個科學領域帶來了巨大的沖擊,包括在教育領域也産生了影響。在學習和研究中,新技術的應用會帶來新的挑戰和機遇。例如,在使用 GPT 等技術時,需要權衡其優缺點,確定其合法和合理使用。從資訊本身的角度來看,資訊處理是現代社會的基礎,包括在資訊的收集、整理、加工、存儲、加密等各個環節。人工智能對于資訊的整理和收集有着巨大的幫助,但是在深度挖掘資訊方面,由于人工智能本身是基于統計方式,其對于事物本身的發現仍然存在挑戰,需要進行更多的研究和突破。是以,在應用人工智能時,需要充分考慮其局限性,同時也需要積極探索新的技術和方法,不斷推動人工智能的發展。

在人工智能和理論計算機的發展過程中,需要關注它們對科學研究的正面和負面影響。正面影響:一方面,人工智能會降低基礎科學研究的門檻,讓更多的人可以參與到這個過程中;另一方面,從國家尺度到全球尺度來看,人工智能也會使大規模協作更加容易,科學家之間的合作将更加便捷。負面影響:例如,誤用資料工具會導緻大量的文章出現,而且現在已經有機器生成資料和文章、再用機器處理這些文章的情況,這可能導緻資訊流失和物化等問題。是以,在使用人工智能和理論計算機進行科學研究時,我們需要審慎地權衡利弊,保持對資料和研究結果的品質和準确性的關注。

人工智能促進學科交叉和交叉學科的發展

資訊技術作為自然科學研究的工具,已經被廣泛應用并取得了顯著成果。除此之外,計算機科學的發展也對自然科學研究産生了深遠的影響。例如,理論計算機中的 NP 完全問題,起初隻是為了計算複雜度而提出,但現在已經被廣泛應用于實體學、化學和生物學等領域。這些學科使用 NP 完全問題闡述它們的規律和複雜性,并将其作為一種描述複雜性的工具。如果某個物質是 NP 完全的,說明它的規律比較混亂;反之,如果它不是 NP 完全的,就可能存在一些内部規律。這種跨學科的應用,充分展現了計算機科學在自然科學研究中的重要作用。從不同的角度看待計算機領域,如與實體學、經濟學等學科的結合,可以發現計算機科學的深刻性、普适性等方面的優勢。計算機領域之是以如此獨特,是因為它擁有着豐富的色彩和多樣性。

資訊技術和計算的發展為自然科學研究帶來了新的本質概念和度量方法,這對科學的發展非常有益。例如,研究證明了一個統計實體系統中配分函數計算的複雜度與實體系統的相變線完全重合,這表明計算複雜度的概念與實體系統的相變有着内在聯系。類似這種交叉學科的發展不僅是将資訊技術作為工具使用,而且還為科學研究提供了新的本質概念和方法。是以,需要探索更多的交叉學科研究,将不同領域的知識和方法互相融合,推動科學研究的發展。又如,通信技術的發展,早期是基于香農的資訊論和麥克斯韋的電磁場理論,但當将這兩個理論結合起來,用電磁場作為資訊的載體,就可以打破資訊與實體之間的邊界,提高通信效率。這種連接配接是非常重要的,可以給資訊和通信領域帶來更多的創新和突破。

第五範式是目前科學研究特别是“AI for Science”(人工智能和科學的結合)中的一個重要模式。現在,人們更多地認為人工智能可以幫助我們發現科學規律,并提出假設。特别是現在的大型語言模型,它可以閱讀各種文獻,包括計算機科學、資訊科學,以及一些傳統學科(如實體學和化學等)領域,這些概念在其語義空間中是相通的。是以,人工智能就像一個通才,能夠促進不同學科之間的交流和互動,進而發現它們之間的共同點,并提出相關的例子。這種交叉學科的交流可以帶來新的科學發現,也可以讓我們更好地了解人工智能與科學之間的關系。

作為科研人員的工具,人工智能輸出結果也需謹慎對待

人工智能在科學研究中的作用非常明顯,它可以幫助科學家更好地探索和研究。以 ChatGPT 為例,它可以為研究人員提供更好的思路和方向,甚至比科學家本身的想法更完善。此外,ChatGPT 的輸出還具有一定的随機性,可以作為頭腦風暴的工具,提供新的思路和想法。然而,使用者也需要認識到人工智能模型背後的超參數,以及它們産生的輸出可能存在的偏差和誤差。是以,在使用人工智能模型進行科學研究時,需要謹慎對待其輸出結果,同時保持對科學研究品質和準确性的關注。

3 資訊技術引領工業界向數字化和智能化變革

人工智能為工業界和下遊應用帶來利好

人工智能、資料驅動和算力已經在科學界引起了巨大的變革,這種變革在工業界中也已經悄悄地發生了。随着資訊技術的不斷發展,工業界也在逐漸轉向數字化和智能化。在這種環境下,産學研關系的發展和工業界發生的變化值得重點關注。

人工智能的發展為工業界和下遊應用帶來了明顯利好。随着 AI 模型的通用性和能力的不斷提高,下遊應用的開發成本得到了大幅降低。以往将 AI 應用于傳統行業需要專業人員進行資料收集、标記和調試,成本較高。現在,AI 模型的通用性和智能性得到了提高,每個人都可以利用自己的資料進行訓練;AI 模型的了解能力也大幅提高,能夠按照使用者的意願進行交流和修正。這種 AI 模型的廣泛應用,使得下遊應用的開發成本大幅降低,使用者隻需要通過簡單的接口和提示就可以調試修改并達到想要的效果,這極大降低了成本和消耗的算力。是以,AI 模型在工業界和下遊應用中的前景非常廣闊。

人工智能在自然科學領域的發展前景非常廣闊,将會取得更多的突破和進展。在未來 3—5 年,人工智能有望在生物學、實體學、氣象預報和 EDA 內建電路設計工具等領域取得重大突破。目前,在這些領域已經有了一些初步的結果。例如,在生物學領域,機器學習已經被用于加速仿真;在實體學和量子實體學領域,也有許多應用場景;而在 EDA 內建電路設計工具領域,機器學習已經展示了其帶來的巨大效果和效率。但目前這些應用場景仍需要進一步工業化,然後才能傳導到産品上。

資訊技術領域發展趨勢

開源模式在資訊領域中已經産生了巨大的影響,未來 3—5 年影響将會更加深遠。開源軟體已經對資訊領域産生了巨大的影響,現在這種模式正在向硬體領域滲透。例如,在晶片領域,開源晶片的趨勢将會逐漸增強。另外,盡管目前開源預訓練模型還隻是小模型,但是随着越來越多的人加入進來,它有可能從小模型逐漸成長為大模型。開源模式将會帶來一系列深遠的影響,包括資料的開源方式、資料共享和交換方式等方面。這種模式的影響不僅僅是單個技術層面的,更是整個技術研發模式和生産關系的改變。是以,不僅要重視開源模式的影響,更要不斷适應這種變化,以便更好地推進資訊技術的發展。

資訊技術是一個能不斷保持指數型增長的領域,這種指數型增長趨勢并非每個研究領域都存在。以飛機發動機推力的發展為例,從 1911 年萊特兄弟發明第一架飛機到 20 世紀 50 年代,在這期間飛機發動機推力的發展出現了指數型增長;這種增長曾經讓人們對能否登月充滿了期待,但後來這種發展趨勢基本停滞了。相比之下,從 20 世紀 60 年代起,資訊技術領域中的摩爾定律已經發展了近 60 年,雖然摩爾定律的發展從現實中看即将面臨停滞,但是資料領域又呈現出一個指數型增長,這給資訊技術領域帶來了新的活力。這種增長趨勢不僅在硬體方面有所展現,在資料量和其他次元上也呈現出指數型增長。這是資訊技術領域的顯著特點,我們需要把握住這種機遇,不斷發揮其優勢,推動資訊技術與其他領域的結合。

人類社會已進入資訊時代,但是人們對于資訊科技的了解、掌握和應用還遠遠不夠。近年來,我們已經看到了許多令人驚歎的應用場景(如 ChatGPT 等),但這些隻是冰山一角,未來還會有更多的新技術和新突破湧現。從資訊技術領域來看,目前是學術研究的黃金時代,雖然美西方國家試圖與中國“脫鈎”,這就逼迫我們做自己的原創技術,尋找其他的出路,這給我們提出了新的挑戰,但更是一個難得的機遇。在一個新的領域裡,永遠不缺乏新的出路。是以,要牢牢抓住這個機遇,積極探索開展研究,努力推動資訊技術的發展。

資訊科學和資訊技術是一種共性技術,對于不同的科學研究和工業應用來說,它們都是底層的關鍵技術。是以,資訊技術的重要性不言而喻,它對于科學研究和産業應用都具有助力作用。資訊技術已經廣泛應用于各個領域,如醫療、金融、交通等,為人們的生活和工作帶來了便利。同時,資訊技術的發展也推動了各個行業的創新和轉型更新。在未來,随着資訊技術的不斷發展,它将繼續發揮更加重要的作用,為人類的進步和發展作出更大的貢獻。

包雲崗 中國科學院計算技術研究所副所長、研究員,中國科學院大學計算機科學與技術學院副院長、教授。主要研究領域為計算機系統結構。

劉 淼 中國科學院實體研究所、松山湖材料實驗室特聘研究員。主要研究領域:發展“人工智能+材料科學”方向的底層方法和資料庫,主導開發了Atomly材料科學資料庫及平台等。

陸品燕 上海财經大學資訊管理與工程學院教授,理論計算機科學研究中心主任。主要從事理論計算機及學科交叉方面的研究。

邱錫鵬 複旦大學計算機科學技術學院教授。主要從事自然語言處理、深度學習等方向的研究。

須 江 香港科技大學和香港科技大學(廣州)微電子學域主任、教授。主要從事內建電路方面的研究。

文章源自:包雲崗, 劉淼, 陸品燕, 等. 關于資訊技術驅動未來産業的若幹思考. 中國科學院院刊, 2023, 38(5): 766-772

DOI:10.16418/j.issn.1000- 3045.20230515003