天天看點

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

如何讓算力像水電一樣随需可取?如何讓機器擁有認知?如何讓異構算力協同工作?

實際上,想要實作對複雜任務進行求解,需要一台可自主求解複雜任務的知識機器。那麼,智能計算數字反應堆大科學裝置是一個理想的選擇。

DeepTech 從之江實驗室獲悉,日前,之江實驗室自主研發的算力聚合和任務排程的全新平台——數字反應堆之江瑤光(以下簡稱“之江瑤光”)作業系統 1.0 已經正式上線。

之江實驗室智能計算數字反應堆從 2021 年 10 月宣布啟動,經一年多的努力,到之江瑤光作業系統正式上線。這意味着,之江實驗室的各種異構算力資源形成了一個無形的“算力池”,可同時供大量科研項目共享使用,而無需為每個科研項目配備獨立的算力資源。

這種共享模式的另一個好處是,當有些項目提出大規模計算任務時,也可以通過之江瑤光作業系統友善地實作相關目标。而對于日常的計算任務,隻要有空閑的算力資源,更是随時可被滿足。

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

圖丨之江實驗室數字反應堆首席架構師潘愛民研究員(來源:之江實驗室)

之江實驗室數字反應堆首席架構師潘愛民研究員表示:“之江瑤光作業系統的上線對之江實驗室來說是一個裡程碑,它代表了之江實驗室提出的‘智能計算作業系統’從概念成為現實。我們将這種計算能力賦能給一批科研項目,使這批科研項目在各自領域裡取得了比過去更高效的科研成果。”

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

“新方法、新工具、新手段”,智能計算作業系統從概念成為現實

潘愛民指出,智能計算數字反應堆的使命是通過算法和算力,并利用資料和知識,來解決複雜任務,尤其是帶有智能需求的複雜任務。

那麼,到底什麼是智能計算數字反應堆呢?首先,我們先來了解一下智能計算數字反應堆的概念。根據之江實驗室的公開資訊,智能計算數字反應堆是“複雜任務自主求解的知識機器”。

想深入地了解這個定義,要從之江實驗室的智能計算系統模型講起。一個典型的智能計算系統,包含“任務、算法、算力、資料、知識”五個核心要素。其中,任務是指“人機物”三元空間中的複雜任務,通常帶有智能的需求,比如很多業務場景下的機器人将代替人類完成一些日常工作。

自主求解是通過算法和算力來獲得解的能力,這是建立在人工智能和各個科學領域已經有了大量成果積累的基礎上,也是智能計算數字反應堆的核心能力。知識機器說明了數字反應堆自身的智能特性,它既融合了大量的人類知識,也在解決各個領域複雜任務的過程中沉澱了領域知識,形成了領域知識庫。

之江實驗室緻力于打造全新的基于智能計算的大科學裝置,為科學發現、社會治理、數字經濟發展提供新方法、新工具、新手段。那麼,如何來了解這其中的“三個新”呢?

具體來看,新方法,是為各個領域提供了智能計算的方法。相比傳統的方法,智能計算可以提高解決問題的效率,使過去大量依賴于人力或者實體世界探索的做法通過算法和算力來完成。

在有些領域中,通過恰當地重新定義問題,以及收集足夠多的樣本或資料,智能計算方法可以革命性地提升相關領域的研究水準。

新工具,指智能計算大科學裝置是一個新的計算工具,也是一個基于智能計算的解決問題的工具。新手段,指智能計算大科學裝置不僅是一個計算裝置,也包含了資料和知識的内涵。它以一種前所未有的方式,将資料、知識與算法、算力結合起來,對各個領域中的挑戰任務進行探索。

潘愛民進一步指出:“科學發現、社會治理和數字經濟都越來越依賴計算的手段來向前發展,智能計算不僅會加速這些領域或行業的發展,也會使這種依賴變得更強,最終使未來的智慧社會成為高度依賴計算的社會。”

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

圖丨之江瑤光作業系統的算力大圖(來源:之江實驗室)

與其他的算力平台、超級計算平台或高性能計算平台相比,之江實驗室數字反應堆能夠接入各種不同類型的計算資源,包括智能計算叢集、超級計算機、高性能計算叢集、通用計算叢集等,而且絕大多數情況下無需侵入它們的系統。甚至“閑散”的計算資源也可以加入到數字反應堆中,進而形成一個超級異構的計算平台。

另一方面,數字反應堆對應用層支援常見的算法庫或計算架構,滿足大多數場景下業務任務中的計算需求。潘愛民表示,之江瑤光作業系統的版本之是以持續疊代,就是為了讓算力資源友善地接入進來。進一步地,使用這些算力資源的門檻也将越來越低。

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

有理想、有情懷、有戰鬥力的團隊

實際上,建設智能計算數字反應堆的過程并非一帆風順。該團隊遇到的第一個難題是對于“數字反應堆”這個名稱應該如何了解,以什麼形式呈現,如何實作。

據介紹,在目标、架構和技術路線的設計方面,之江實驗室專門建立了智能計算數字反應堆架構師團隊,組織了實驗室在軟體工程、計算架構、計算應用等方面的一批專家,進行了半年左右的調研、讨論、設計,進而形成了現在的方案。

在項目組研發初期,他們還面臨着“時間緊、任務重、人手緊缺”的問題。在組建研發團隊的同時,與杭州指令集智能科技有限公司開展合作,快速搭建了擁有完全自主知識産權的系統原型,通過幾個應用跑通了從應用側到排程側的流程。再之後,經過每一到兩個月一個版本的疊代,實作了系統的可用、高效和穩定。

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

圖丨從左到右依次是 楊非、潘愛民、高翔、邱鵬、劉儀陽、陳旭(來源:之江實驗室)

在技術上,該團隊也遇到了諸多具體的難題。之江實驗室智能計算軟體研究中心算法專家楊非舉例說道:“比如大規模計算任務的優化、具體執行和部署方案設計,多個異構計算叢集的排程政策設計,多個應用領域專用平台與通用作業系統的關系和架構設計,多級存儲體系的設計和性能優化等。”

針對這些問題,他們通過組織專門團隊進行技術攻關,經過兩三個版本的疊代,逐漸解決了這些問題,并且實作了相應能力的“可用”和“好用”。

不容忽視的是,由于智能計算數字反應堆接入各種不同類型的算力叢集,這些叢集呈現出異構、作業類型和使用方式不同等特點,特别是曆史上已經建設存在的 HPC 算力叢集,需要在智能計算數字反應堆實作一緻的算力視圖和作業視圖,建構統一的作業執行排程體系。

之江實驗室雲原生領域專家高翔表示,在這個過程中,團隊貫徹潘愛民研究員提出的“非侵入式接入算力叢集”設計理念,采用叢集裝置插件的方式,将各個異構叢集通過裝置插件接入到數字反應堆統一體系中。“并且,在上層建構之江定義的元排程器,通過巧妙的工程技術架構,解決了數字反應堆面臨異構算力叢集建設中進行算力聚合的技術難題。”

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

(來源:之江實驗室)

先進技術的背後離不開專業團隊的支撐,特别是對于一個成功的作業系統,除了作業系統本身有業務價值以外,其背後的團隊尤為寶貴。

據悉,數字反應堆之江瑤光作業系統團隊是這一年内快速凝聚起來的超過一百人的系統軟體團隊,團隊平均年齡 30 歲,成員大多受使命感召而加入進來,很多來自國内頭部資訊技術企業或科研院所,在相關領域積累了豐富的研發經驗。

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

圖丨之江瑤光智能計算數字反應堆部分團隊成員(來源:之江實驗室)

數字反應堆項目的順利進展也證明了這是一支有理想、有情懷、有戰鬥力的團隊。其中核心團隊成員具備超過五年的系統軟體研發經驗,數字反應堆項目正是得益于團隊成員這些經驗的積累,為研發的整體進度提供了有力保障。

有意思的是,在之江瑤光作業系統團隊中,有一半的成員需要同時兼顧兩個崗位——他們既是系統程式員,也是系統架構師。終其原因,之江瑤光是一個複雜的作業系統,而駕馭該系統的前提是,需要熟悉各種技術的“多面手”,包括雲原生、高性能計算、存儲系統、緩存管理、常見算法架構,甚至超級計算機的系統技術等。

潘愛民表示:“在我個人工作經曆中,已經多次建立作業系統團隊。而之江瑤光是我在之江實驗室建立的作業系統團隊。過往經曆和團隊的通力合作,為之江瑤光作業系統 1.0 版本的按時釋出奠定了堅實的基礎。”

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

未來,讓算力随時、随處可用

智能計算數字反應堆之江瑤光作業系統 1.0 是基礎版本,也是一個好的開端,其初步實作了數字反應堆的功能,能夠将常見的算力資源接入到系統中,并支援常見的各種計算需求。

該團隊透露,按照現代作業系統的通行做法,之江實驗室計劃在每年的下半年釋出之江瑤光作業系統的重大更新版本。

數字反應堆之江瑤光作業系統1.0上線,智能計算從概念成為現實

(來源:之江實驗室)

據了解,下一代的版本将更加穩定、高效,能快速地部署到各種計算場景中;另一方面,也将更友好地支援開發者以簡捷的方式實作各種計算應用。

潘愛民表示,團隊的終極目标是讓算力“随時、随處”可用,其中算力不僅指同一個資料中心内部的計算叢集,也包括邊緣側或者跨資料中心的計算資源。

而“随時、随處”可用則意味着,專業的計算服務将來便捷可得。“我們的每一個版本都會向這個目标逼近,預計不超過三至五年,就可以實作算力随時随處可用的目标。”

繼續閱讀