天天看點

LF AI&Data執行董事:每周有超100萬行代碼在開源AI領域建立

作者:澎湃新聞

·比如某銀行,全國有八大研發中心,每個中心有N個項目組,每個項目組還有M個外包團隊,在做着N乘以M個并行的軟體項目。一堆人在吭哧吭哧寫代碼,沒有任何交流。

“現在每周有超過100萬行代碼在開源AI領域中被建立,有無數優秀的社群成員做出貢獻,我覺得開源的下一代ChatGPT指日可待。”5月27日,在上海舉辦的2023全球開源技術峰會期間,LF AI & Data基金會執行董事、PyTorch基金會執行董事易蔔拉欣·哈達德(Ibrahim Haddad)在接受澎湃科技(www.thepaper.cn)專訪時,談到了大語言模型的開源現狀。

LF AI&Data執行董事:每周有超100萬行代碼在開源AI領域建立

LF AI & Data基金會執行董事、PyTorch基金會執行董事易蔔拉欣·哈達德。

開源(OpenSource)即開放源代碼,使用者可以利用源代碼在其基礎上修改和學習。峰會期間,開源中國董事長馬越在接受澎湃科技采訪時談到,使用者基于興趣來到某個開源項目,在源代碼的基礎上不斷改進,在此過程中,一部分優秀項目就會得到發展并商業化。

LF AI&Data執行董事:每周有超100萬行代碼在開源AI領域建立

開源中國董事長馬越在2023全球開源技術峰會上發表演講。

馬越回憶到,開源起源于歐美,中國曾經不是開源的強國,隻是開源應用的大國。但如今随着技術與經濟環境發展,開源不再單純是“為愛發電”的模式,生态已經發生了翻天覆地的變化,如今國内已有多家覆寫全領域技術内容的綜合社群,且擁有豐富的獎勵機制來維護生态,這個過程中孕育出了許多優秀的開源項目,例如OpenHarmony(鴻蒙作業系統的開源版本)。

談到開發者與開源生态的關系時,馬越指出,“沒有開發者的生态,不能稱其為開源生态,一個不能持續吸引更多開發者的生态,注定也會枯萎。”馬越還表示,數字化轉型的最大阻礙,是代碼沒有成為企業資産,“目前許多企業陷入了‘燈下黑’的狀态,開發了無數代碼,需要修改時,卻找不到對應的内容,這些代碼無法成為企業資産。軟體本質上的核心價值是為了複用,而這正是開源要解決的問題。”

“開源AI項目會誕生下一個ChatGPT”

自聊天機器人ChatGPT及其背後的GPT大模型爆火之後,一些開源大模型也在最近幾個月引起了業界高度關注,包括Meta的LLaMa、複旦大學的MOSS和Databricks的“多莉(Dolly)”等。

在采訪中,哈達德十分肯定,AI相關的開源項目會在未來産生下一個ChatGPT,“開源能夠加速大語言模型(LLM)的開發和創新。”他說,“事實上,許多行業内的組織都意識到,要想實際訓練這些模型,需要太多的資料、太多的精力和太多的雲服務。是以,開源方面的協作是必不可少的。在面對複雜問題時,需要許多組織攜手合作,共同應對這些難題。”

哈達德解釋稱,建立一個開源的大語言模型需要很多子產品,“要實作真正的開源,至少需要七八個不同的子產品都以開源形式提供。這需要多個組織共同努力。”

哈達德認為,最重要的子產品是用來訓練的資料集,必須在Linux基金會的開源許可下使用。“我們和成員公司定義這個特定的AI資料開源許可證為CDLA(community data license agreement),公司們可以使用這個許可證來開源資料。”其次是模型架構本身,以及公司用于構模組化型的支援工具和庫,還有模型的權重和參數、文檔等。這些都是大模型生态需要以開源形式提供的子產品,它們可以幫助其他人擷取這些資訊并運作模型,使用相同的方式和基準進行訓練。通過提供所有這些資訊,其他人可以在此基礎上做出貢獻,這也是一種建立信任的方式。

事實上,LF AI & Data正在着手做這件事,該基金會是Linux基金會旗下專注于人工智能、機器學習、深度學習和資料的子基金會。哈達德表示,自2018年成立以來,LF AI & Data一直專注于建立社群和生态。而下一階段,“我們将專注于AI,特别是生成式人工智能。”“人工智能技術的應用潛力巨大,現在很多人對這項全新技術仍然知之甚少,甚至不知道他們正在與人工智能系統或人工智能生成的語音或文本互動。”

哈達德認為開源極大地推進了人工智能的發展,他用幾個關鍵資料舉例稱,LF AI & Data在2018年開始做AI開源生态系統時,隻有大約70個項目被認為是關鍵項目,而現在已經增加到了350個。這些項目提供了超過6億行代碼,可供任何人選擇、使用。“現在,每周有超過100萬行代碼在開源AI領域中被建立,可以看到如今AI開發和創新的速度都非常快。”

“開源是數字化轉型的基座”

“市場上有很多公司,他們每天都在競争。但在開源中,我們一般不會互相競争。所有公司都走到一起,一起協作,為解決行業挑戰做出貢獻。這是一個非常與衆不同的環境。”哈達德稱,在這個環境中,人人彼此信任,構成了強大的道德基礎,在此基礎上可以建構一種透明的技術發展。

馬越認為,這些憑借興趣聚集的開發者,往往是在“為愛發電”中創造出了優秀的項目和開源生态,而這樣的項目和生态恰恰是數字化轉型的重要基座。“要利用專業平台把軟體工程數字化這件事做好。開源中國能夠幫助企業把軟體工程的資料資産化沉澱下來,成為公司可審計、可複用的資産。”他說。

馬越指出,現在市場上出現了“燈下黑”的現象,許多企業嘗試數字化轉型,卻沒有注意到本身的軟體工程沒有數字化。“比如某銀行,全國有八大研發中心,每個中心有N個項目組,每個項目組還有M個外包團隊,在做着N乘以M個并行的軟體項目。資訊化、數字化轉型最大的投入點就在這裡,阻礙也在這裡。一堆人在吭哧吭哧寫代碼,沒有任何交流。比如某銀行的一個菜單選項欄,可能重複做過上千遍。”馬越解釋道,軟體本質上的核心價值是為了複用。“數字化底座缺失就造成了複用缺失,不僅銀行菜單使用複雜,審計代碼不能運作,甚至一旦員工離職了,連之前的代碼也追查不到。”

目前,中國開源社群如雨後春筍一般接連冒出。馬越表示,除了開源中國,還有CSDN和51CTO等,而其他較小的垂直社群總計達300個左右。

GitHub 2022年的報告顯示,全球已有超過9400萬開發者使用者,其中70%來自北美之外的地區,而中國開發者占10.3%,有975萬,位居全球第三,GitHub預測2030年中國開發者将成為全球最大的開源群體。

針對國内外開源生态的差距,馬越強調,盡管Gitee(開源中國2013年推出的基于Git的代碼托管和協作開發平台)目前是世界第二大開源社群,但與國外的開源社群仍然有差距。“目前,我們隻能服務1000萬開發者,隻擁有2500萬代碼倉,而GitHub可以達到我們力量的八九倍。”但他對未來持樂觀态度,“中國開源迎來了曆史上最好的時機。”他認為,中國目前的力量已經可以為開發者提供一個“起飛的基座”。

“解放天下開發者”

“開發者是開源生态的根基,一個不能持續吸引更多開發者的生态,注定也會枯萎。”馬越指出,“在開源社群,存在着反哺循環,你幫助别人,别人就會回過頭來幫助你,是以在通常情況下,最吸引開發者的點就是‘你可以幫助他’,你可以為他提供最優秀的項目、最好的品質、最廣的場景。”

與過去相比,如今的開源生态已經發生了翻天覆地的變化。哈達德說,“1992年我在大學的時候,甚至很難找到開源網站。”如今,線上上,有開源網站提供各種豐富的知識,有許多社群論壇可以提問;線上下,開源項目舉行很多線下交流活動,把成員們聚在一起讨論各種問題。

對于新進入項目社群的開發人員,哈達德表示,與多年前相比,今天的新開發人員更容易獲得知識。Linux基金會提供了很多免費教育訓練,幫助開發人員學習知識和技能并獲得認證。“從雇主的角度來看,獲得認證非常有價值。當兩個人有相同的技能,其中一個是認證的,認證的人比沒有認證的人有更大機會得到工作。”哈達德說。

另一方面,如何讓開發者願意參與開源?馬越稱,“解放天下開發者,最重要的是讓他們先獲得财富自由。比如讓他們通過技能赢得物質獎勵,比如幫助他們發展開源項目并實作商業化。”馬越舉例,目前有很多大廠開展黑客松大賽,給優勝者提供真金白銀的獎勵,通過物質利益來吸引更多開發者。

“我們在做一個長尾工程,對我們服務的超過1000萬開發者提供基座服務。”馬越舉例,“在OpenHarmony項目的開發初期,開發者需要将代碼托管在一個中立的第三方平台,才能獲得大量的開發者流量,并且保證工程基座技術服務品質。而一般平台很難擁有我們這種積澱10年的巨大的開發者流量與技術服務。雖然OpenHarmony是我們這裡最有名的項目,但我們還有其它大量優秀的項目。”

繼續閱讀