天天看點

如何建構可持續的ChatGPT高性能伺服器端架構?

作者:深度學習GPU伺服器

邊緣計算 | 液冷伺服器 | GPT-4

深度學習 | AI伺服器 | ChatGPT

在上周舉行的釋出會上,OpenAI宣布推出了GPT-4模型。與之前的版本相比,GPT-4最大的改進是其多模态(multimodal)能力——它不僅能夠閱讀文字,還能識别圖像。值得注意的是,雖然之前有消息稱GPT-4擁有100萬億個參數,但OpenAI并沒有證明這個數字。與其相比,OpenAI更強調GPT-4的多模态能力以及其在各種測試中的表現。

據OpenAI表示,GPT-4在多種基準測試中表現出超過絕大多數人類的水準。例如,在美國律師資格考試Uniform Bar Exam、法學院入學考試LSAT、“美國聯考”SAT數學部分和證據性閱讀與寫作部分的考試中,GPT-4的得分高于88%的應試者。

此外,OpenAI正與多家公司合作,将GPT-4結合到他們的産品中,這些公司包括Duolingo、Stripe和Khan Academy等。同時,GPT-4模型也将以API的形式提供給付費版ChatGPT Plus的訂閱使用者使用。開發者可以利用這個API打造各種應用。微軟也在宣布中表示,新款必應搜尋引擎将運作于GPT-4系統之上。

在釋出會上,示範人員用草稿本和紙筆畫了一個非常粗糙的草圖,然後拍照告訴GPT-4他需要做一個長這樣的網站,并需要生成網站代碼。令人印象深刻的是,GPT-4隻用了10秒鐘便生成了完整的網站代碼,實作了一鍵生成網站的效果。

如何建構可持續的ChatGPT高性能伺服器端架構?

ChatGPT的高性能運作離不開一個穩定的伺服器端架構。建立可持續的伺服器端架構,不僅可以保障ChatGPT的穩定性和可靠性,還有助于減少能源消耗、降低成本和支援企業的可持續發展戰略。是以,本文将探讨如何建構可持續的ChatGPT高性能伺服器端架構。

如何建構可持續的ChatGPT高性能伺服器端架構?

超越“以往的桎梏”ChatGPT突破還是AI延伸?

ChatGPT是一種自然語言處理的技術,可以根據已有的資料訓練模型,進而産生更加真實自然的對話。這種技術的産生自然是延續了之前的AI發展過程,但在某些方面也實作了突破。

1、ChatGPT具有更強大的對話生成能力。在早期的AI技術中,基于規則和模式的方式進行對話生成,是以往往會面臨限制和拘束的問題。但GPT系列模型通過大量的語言訓練資料,可以實作更加真實自然,靈活适應對話場景的對話生成。

2、ChatGPT的訓練方式也有所改變。在以往,通常需要人工參與到資料标注的過程中,讓機器能夠了解人類語言的含義。但是GPT系列通過無監督訓練的方式,可以從龐大的語言資料中學習人類語言表達的規律和結構,進而實作更加真實、生動的對話生成。

3、GPT系列模型在處理多語種和多場景對話方面也有優勢。傳統的AI技術主要适應單一場景,缺乏語言的多樣性。但是,GPT系列模型因其對多種語言訓練的能力,可以處理不同語種之間的對話,也可以應對不同場景的對話需求。

ChatGPT兩年内發展與展望

聯合研發OpneAI的GPT-4已經開發了三年多,釋出時間不久,它很有可能會在效率上得到大幅提升,但具體将湧現哪些新的代碼能力還不确定。目前尚能确定的是GPT-4将解決像GPT-3.5中存在的一些重要問題,例如優化資料參數比例,提高資訊處理和規律發現的效率,以及提高資訊輸入的品質等。極有可能會在效率上提升許多,它的推理成本也會大大降低(有可能降低到百倍)。不确定的是GPT-4将有多大的模型規模(它可能比傳言的大模型還大),以及它是否會具備多模态的能力(此前尚未确定,未來也難以預測)。即使模型具備多模态能力,但由于多模态資訊很難标準化為文本模式,是以,在ChatGPT對世界進行豐富多彩的想象時,它目前仍然是有限的。

一、ChatGPT現階段所面臨的很多問題在工程上都有相對簡單的解決方案。

例如:

1、解決“hallucination”問題(ChatGPT偏向于産生不準确的輸出)可以通過優化準确度和引入搜尋資料來做矯正,而且人類可以參與判斷過程以增加準确度。此外,在應用ChatGPT時,可以先在人類确定好壞的場景下進行輔助性判斷。

2、對于ChatGPT的記憶力有限問題,可以使用OpenAI提供的開放接口來解決。特别的,現有的解決方法非常神奇,隻需要在提示ChatGPT回答之前,向它說明所提供的内容僅是全部資訊的一部分,并要求其在聽完後再回答。

3、ChatGPT的自我審查能力不僅僅基于規則,更基于了解,這種基于了解的自我審查能力實際上更加可調節。OpenAI也提出了讓ChatGPT在尊重基本規則的前提下,發言尺度可以根據需求進行調節的願景。

如何建構可持續的ChatGPT高性能伺服器端架構?

二、ChatGPT的成本會直線下降,尤其inference的成本會小兩個以上數量級

ChatGPT的成本将會直線下降,特别是inference的成本會小兩個以上數量級。 Sam在公開場合曾經說過,ChatGPT的inference成本是幾分錢每條。此外,《Key Takes from ChatGPT and Generative AI.pdf》根據Jefferies Research的詳細調研,ChatGPT的inference大機率是基于閑置x86 CPU而非GPU進行的。

出于對inference和大型語言模型優化空間的了解,我們認為inference成本會直線下降,這一點是非常有可能的。成本的下降意味着應用範圍和資料收集能力的擴大。即使ChatGPT的使用者達到了十億DAU的水準(目前的一億DAU的估算也是不準确的),它也能做到免費。最多隻有一些使用次數的限制。New Bing曾一度限制搜尋次數為60次,但現在也已經取消了。這些實際使用中的對話無疑将進一步加強ChatGPT的優勢地位。

三、對于ChatGPT的“能力”子模型,可能需要重新訓練,但“知識”子模型隻需要通過instruct prompting的方式輸入新知識即可,無需修改已有的pre-trained模型。

對于許多子任務,隻要ChatGPT具備了了解能力和知識量,就可以通過對話、引導和教育的方式,不斷調整ChatGPT的表現,讓它在各個子任務中發揮出新的能力。與此相比,過往的AI技術在面臨新的任務時,需要重新訓練模型,而不能像ChatGPT這樣隻需要輸入新的知識。

如何建構可持續的ChatGPT高性能伺服器端架構?

如果以鋼鐵俠3為比喻,ChatGPT就像通用型铠甲,能夠勝任大部分工作。通過“教育”和“引導”的方式,可以讓ChatGPT在多個領域中完成各種工作,例如給出醫療建議、法律參考、編寫代碼架構、制定營銷方案、提供心理咨詢、擔任面試官等。

需要強調的是,prompting的重要性。微軟的New Bing并沒有對ChatGPT做出太大的修改,而是通過prompting引導ChatGPT進行合理的搜尋。在prompting的基礎上,如果要專注于某些方面,例如犧牲對話延續性來提高資訊精度,就需要重新訓練模型并進行調整。這可能需要整合其他能力子產品,例如搜尋和其他模型的接口,并融合一些工具,就像那些專精型铠甲一樣。總之,通過不斷錘煉ChatGPT的能力和使用工具,可以拓展其應用範圍和解鎖更多的可能性。

四、随着時間的推移,我們預測自助型ChatGPT的Prompting能力将得到大幅提高,并會逐漸開放更多功能。

這不僅是商業上的顯而易見的優點,還能讓使用者逐漸調教屬于自己的ChatGPT,讓其适應自己的偏好并學習獨特的知識(而非僅限于技能的刺激)。此外,盡管 ChatGPT 的模型仍然是閉源的,不同應用層上的競争力仍然能夠得以開發和提高,解決了僅能向OpenAI提供UI設計的疑慮。想象一下這樣的場景,你的 ChatGPT 能夠記錄你與TA的所有對話,并從你的回報中逐漸學習。如果你是一個優秀的營銷經理,過了一段時間,你的 ChatGPT 也将獲得比其他人更出色的營銷技能。

五、GPT-4預計能夠大幅提升ChatGPT的能力,在多個領域達到“優秀員工”的水準。

最近的範式革命已經展現了New Bing和ChatGPT之間的巨大差異。我們有充足的理由相信,在以下方面,GPT-4幾乎肯定會有巨大的進步:

1、大模型、大資料、更優化的參數和資料比例。這些因素的優化方向很明顯,因為參數越多、資料越多,但是隻有合适的比例才能使模型充分吸收資料知識。

2、更有針對性的訓練資料集。OpenAI在“造高品質大資料”上的能力幾乎獨步天下,而經過GPT-3之後的多年摸索,他們已經能夠更好地調整什麼資料對增強什麼模型能力更有用(例如讀取更多代碼和調整多種語言的比例等)。

3、可能的“能力子產品融合”。New Bing以ChatGPT為基座并延伸了搜尋能力。是否有辦法直接将搜尋能力融入預訓練大模型?類似地,可以考慮如何高效地将其他能力融入基于預訓練大模型的 ChatGPT,并結合更多的場景進行調教。是以,預測在接下來的兩年内,基于GPT-4的ChatGPT,在大多數場景下都能夠達到9級員工的水準,擁有更強大的歸納和“了解”能力。

ChatGPT與GPT能力壁壘探究

ChatGPT的壁壘來源有以下幾個方面:

一、GPT-3是閉源的,OpenAI保持着非常審慎的态度,不可能把ChatGPT開源。是以,國産機器學習依賴于“開源模型國産實作”路徑在ChatGPT上看起來不現實。

二、模型參數的增加需要強大的工程能力,同時也需要讓大模型能夠有效地學習到大資料中的知識,如何調教模型産出人類需要的輸出這些問題在OpenAI的部落格中都被強調了。需要具備“原理性”思考習慣的工程師參與突破這些工程瓶頸。據悉,OpenAI超高的人才密度成功突破了許多工程瓶頸。是以,需要在上一步工程突破的基礎上進行下一步工程積累。

三、特定的商業環境下注重實用,例如位元組跳動的推薦算法模型雖然十分大,難度也很大。但是,基于現有模式的持續優化不能形成範式突破。在現實的商業環境下,如果不能為業務提供正回報,模型的發展會受到極大的阻礙。

四、Leadership的技術判斷力是稀缺資源。New Bing與ChatGPT的成功結合被視為罕見的奇迹,遠超市面上其他人。這方面可遇不可求,不是一個可複制的模式。

如何建構可持續的ChatGPT高性能伺服器端架構?

五、資料飛輪已經形成,ChatGPT是現象級成功的C端産品之一,結合微軟的資源和管道加成,一上來就卡住了非常好的身位。是以,ChatGPT的使用資料是可以不斷反補模型本身的。ChatGPT的部落格也強調了他們的獨特機制,使得資料的使用、了解和生産都有閉環。

如何建構可持續的ChatGPT高性能伺服器端架構?

ChatGPT未來AI時代的新工具

ChatGPT的DAU增長現象級,使用者回報也表現出其異常實用。雖然ChatGPT具有極高的娛樂價值想象,但其顯著提升生産力的能力則更為突出。對話和閱讀實際上是一種較高門檻的娛樂方式,多數情況下,豐富性和深度并非是娛樂價值的主要決定因素。是以,我們建議在使用ChatGPT時多着眼于提升生産力上。

此外,需要記住,ChatGPT是一種颠覆式的産品,而不是漸進式的改進。對于科技的早期采用者而言,可能已經無法離開ChatGPT,但對于大衆而言,打開搜尋引擎進行搜尋甚至已不是普遍習慣,使用清晰合理的提示與ChatGPT進行對話的程度更是偏低。是以,在未來幾年内,ChatGPT取代的更多是各種SaaS、雲、效率工具,如搜尋引擎等。

在實際場景應用中,我們應該遵循兩個原則:對症下藥和擇善而從。ChatGPT不等同于搜尋引擎和程式,我們應該讓它發揮其所長,而不是去試圖替代其他更為高效的工具或服務。此外,考慮到目前ChatGPT存在明顯的幻覺問題,我們應該保持警惕,不在所有場合盲目相信ChatGPT的結論,而是在需要人工判斷的情況下使用ChatGPT,并由人來審視其結論的真實性。

如何建構可持續的ChatGPT高性能伺服器端架構?

ChatGPT與人類從本質上探究兩者的不同

由于腦科學和神經科學發展尚不夠成熟,我們隻能從哲學的角度探究人類和ChatGPT這兩者在本質上的不同與相同。

一、從判斷力的角度來看,ChatGPT隻能從虛拟數字中吸取數字信号,無法與現實世界進行真實互動。隻有躬行實踐,才能建立判斷力的根基。

二、如果隻基于數字信号進行推測,ChatGPT很可能會得出錯誤的結論。例如牛頓發現萬有引力的過程,是基于看到蘋果落地進而預測星星運動的。而當時很多人都認為太陽是繞着地球轉的,如果有一個ChatGPT,很可能會得出錯誤的結論。是以,在日常生活中,識别思維能力,例如“靈感并發、靈光一現”的瞬間,也是很有意義的。

三、如果隻是歸納現有知識,ChatGPT很可能比人類做得更好。但是創造網際網路上不存在的新知識,才是ChatGPT做不到的。

四、從了解人的角度來看,人類能夠了解人性,而不需要通過調研、問卷和網絡資料。同時,通過現實世界的實踐,人類能夠帶來關于人性的增量了解。這是ChatGPT所無法達到的。這暗示着,在真正了解人類時,要去真實世界進行實踐,而不是去人雲亦雲地重複套路。

ChatGPT探索對算力的需求

AI模型對算力的需求主要展現在訓練和推理兩個層面。目前主流的人工智能算法通常可分為“訓練”和“推理”兩個階段。賽迪資料顯示,2022年中國數字經濟爆發強大的增長動能,比上年增長20.7%,較2021年提高2.9個百分點,遠超世界平均水準,數字經濟規模達到45.5萬億元,規模超排名第三的德國一倍有餘,數字經濟發展水準穩居全球第二位,數字經濟規模超過彰顯出數字經濟大國姿态。近年來中國也在積極推動數字産業創新能力加快提升,推進産業數字化轉型提檔加速,與美國在數字經濟競争力上的差距也逐漸縮小。

  • 訓練階段
  • 對人工智能模型進行調整和優化的過程,以達到預期的準确度。為了讓模型更準确,訓練階段通常需要處理大量的資料集,采取反複疊代的計算方式,需要耗費大量的計算資源。推理階段是在完成訓練階段後,應用已建立的人工智能模型進行推理或預測輸入資料的輸出結果。
  • 推理階段
  • 相比訓練階段對計算能力畢竟要求不那麼高,但由于訓練出來的人工智能模型需要多次用于推理任務,是以推理運算的總計算量依然很可觀。
如何建構可持續的ChatGPT高性能伺服器端架構?

ChatGPT的算力需求場景可以根據實際應用進一步拆分為預訓練、Finetune和日常營運三個階段。預訓練階段通過大量無标注的文本資料來訓練模型的基礎語言能力,得到基礎大模型,例如GPT-1、GPT-2和GPT-3。Finetune階段在基礎大模型的基礎上,進行監督學習、強化學習和遷移學習等二次或多次訓練,以優化調整模型參數量。日常營運階段基于使用者輸入資訊,加載模型參數進行推理計算,并實作最終結果的回報輸出。

如何建構可持續的ChatGPT高性能伺服器端架構?

預訓練階段:單次算力需求取決于模型參數量,最高可達3640 PFlop/s-day

ChatGPT是一個語言模型,其架構基于Transformer。Transformer架構由編碼和解碼子產品組成,其中GPT隻使用解碼子產品。 此外,Transformer還包含三個層級:前饋神經網絡,自注意力機制層和自注意力掩碼層,這些層級都互相作用,以實作模型的高效性。

自注意力機制是Transformer中最重要的部分之一,其主要作用是計算某個單詞對于所有單詞的權重(即Attention)。通過這種方式,模型能夠更好地了解文本内在關系,以及對輸入之間的關系實作高效學習。自注意力機制層還允許模型進行更大規模的并行計算,這使得計算效率得到了大大的提升。

前饋神經網絡層提供高效的資料資訊存儲和檢索。在這個層面上,模型能夠有效地處理大規模的資料集并實作高效計算。

掩碼層是為了在自注意力機制中過濾右側未出現的單詞。 這種遮蔽允許模型隻能注意到文本中已經展示的内容,進而保證了計算的準确性。

與之前的深度學習架構相比,Transformer架構具有明顯的優勢。Transformer架構的并行計算能力更強,能夠大大提高計算效率。這使得GPT可以訓練更大更複雜的語言模型,并且可以更好地解決語言處理問題。

如何建構可持續的ChatGPT高性能伺服器端架構?

Transformer解碼子產品拆解

根據先前的資料,預計日常營運每月需要約7034.7 PFlop/s-day的算力。使用者互動也需要算力支援,每次互動成本約0.01美元。根據ChatGPT官網近一個月(2023年1月17日至2月17日)總通路量達8.89億次,是以2023年1月OpenAI為ChatGPT支付的營運算力成本約為890萬美元。另外,Lambda表示,訓練一次1746億參數的GPT-3模型所需的算力成本超過460萬美元;而OpenAI表示,訓練一次1746億參數的GPT-3模型所需的算力約為3640 PFlop/s-day。我們假設機關算力成本不變,是以ChatGPT單月營運所需的算力約為7034.7PFlop/s-day。

如何建構可持續的ChatGPT高性能伺服器端架構?

Finetune階段:預計ChatGPT單月Finetune的算力需求至少為1350.4PFlop/s-day

ChatGPT是一種需要不斷進行Finetune模型調優的模型,以確定它處于最佳應用狀态。這個調優的過程需要開發者對模型參數進行調整,以確定輸出内容不是有害和失真的,并基于使用者回報和PPO政策對模型進行大規模或小規模的疊代訓練。這一過程中需要的算力将為OpenAI帶來成本,具體的算力需求和成本金額取決于模型的疊代速度。

預計ChatGPT單月Finetune算力需求至少為1350.4PFlop/s-day。根據IDC的預測,在2022年中國人工智能伺服器負載中,推理和訓練的比例分别為58.5%和41.5%。如果假設ChatGPT對推理和訓練的算力需求分布與之保持一緻,且已知單月營運需要算力7034.7 PFlop/s-day、一次預訓練需要算力3640 PFlop/s-day,那麼我們可以進一步假設每月最多進行一次預訓練。由此我們計算得ChatGPT單月Finetune算力成本至少為1350.4PFlop/s-day。

從 GPT-1 的 1.17 億到 GPT-2 的 15 億,超 10 倍的參數差距帶來了性能上的飛躍。這似乎意味着,随着容量和參數量的增多,模型性能還有更大的潛力——是以,2020 年 GPT-3 的參數量翻了 100 倍:1750 億,其預訓練資料量也高達 45TB(GPT-2 是 40GB,GPT-1 約 5 GB)。事實證明,海量參數确實讓 GPT-3 具備了更強大的性能,它在下遊任務表現的非常好。即便是複雜的 NLP 任務,GPT-3 也表現驚豔:可以模仿人類寫作,編寫 SQL 查詢語句、React 或 JavaScript 代碼等。回顧 GPT-1 、GPT-2 和 GPT-3 這一路的發展,許多人對 GPT-4 寄予厚望,甚至還有傳言稱 GPT-4 的參數量将高達 100 萬億。

鑒于人類回報機制下,模型需要不斷獲得人類指導以實作參數調優,是以模型調整可能會多次進行。這需要的算力成本将會更高。

ChatGPT伺服器種類有哪些?

一、中國伺服器發展現狀

各國加快提升數字經濟發展水準,傳統行業的數字化程序加速,企業的數字化智慧化需求旺盛,尤其是5G、大資料、人工智能等新興技術領域快速發展,持續賦能伺服器行業。

1、高算力需求帶動伺服器行業迎來發展新機遇

算力作為一種核心生産力,應用在網際網路、政務、金融等各領域場景随着元宇宙、Web3.0等新概念的出現,更複雜的計算場景産生高算力需求。推動伺服器産品向更高計算性能方向更新。

2、大型資料中心建設加快伺服器市場規模增長

大規模資料中心建設是全球伺服器市場增長的主要動力、北美、亞大西歐等全球大部分地區的資料中心伺服器采購持續增長。

二、ChatGPT需要的伺服器:AI訓練型伺服器+AI推理型伺服器

邊緣計算需要大量機器處理高負載請求,而傳統的CS模式已經無法滿足這一需求。目前的網際網路架構正在向以CDN服務為核心的CES模式轉變,但CES模式在邊緣上處理非結構化資料存儲和處理的需求方面存在局限性。是以,引入Edge端以解決無法處理業務的問題。在AI訓練場景下,由于計算量和資料類型的變化,C-E-S也無法滿足需求,是以計算架構在回歸到C-S,并朝向高效率并行計算的方向演變。

如何建構可持續的ChatGPT高性能伺服器端架構?

計算架構演變過程

作為硬體核心,伺服器面對不同的計算場景,而計算架構變化是伺服器技術演進的關鍵。随着雲計算、邊緣計算和AI訓練等計算架構的出現,伺服器需求也在不斷變化。單一伺服器更加關注個體性能,而雲資料中心伺服器更關注整體性能。邊緣計算對資料互動實時性的要求更高,并需要更多的伺服器設施。AI伺服器主要用于人工智能訓練,使用向量/張量資料類型,并通過大規模并行計算來提高效率。

同一技術路線下,伺服器面向資料處理需求持續疊代。複盤主流伺服器發展曆程來看,随着資料量激增、資料場景複雜化,不同類型伺服器發展驅動力也有所差異。具體來看:

傳統的通用伺服器發展較為緩慢,主要是通過處理器時鐘頻率、指令集并行度、核數等硬體名額的提升來優化其性能。相比之下,雲計算伺服器快速發展成熟,這一過程始于20世紀80年代,随後在VMware Workstation、亞馬遜AWS等産品的推出,以及OpenStack開源項目的出現下加速了。目前,雲計算在全球範圍内已經比較普及,許多公司都使用流行的雲服務提供商(如AWS、Azure、Google Cloud等)來存儲和處理資料。邊緣計算伺服器概念于2015年孵化,近年來已出現諸如AWS Greengrass、谷歌GMEC等邊緣計算平台。随着越來越多的裝置(如可穿戴裝置和智能家居裝置)連接配接到網際網路,邊緣計算技術的需求也日益增長。最後,AI伺服器是為人工智能和機器學習工作量身定制的,其硬體架構更加适合對訓練算力的需求。随着人工智能的應用變得越來越廣泛,AI伺服器的需求也在增加。

三、雲計算伺服器:大規模資料處理需求下的商業模式變革

雲計算伺服器的出現是為了滿足資料量激增所帶來的高性能計算需求。傳統通用伺服器通過提高硬體名額提升性能,但随着CPU工藝和單個CPU核心數量接近極限,無法滿足資料量激增的性能需求。相比之下,雲計算伺服器采用虛拟化技術,将計算和存儲資源進行池化,把原本實體隔離的單台計算資源進行虛拟化和集中化處理,并以叢集化處理來達到單台伺服器所難以實作的高性能計算。此外,雲計算伺服器的計算能力可以通過增加虛拟化伺服器的數量來進行擴充,突破單個伺服器硬體限制,應對資料量激增所帶來的性能需求。

雲計算伺服器實際上節約了部分硬體成本,并降低了算力采購門檻。在過去,大規模資料處理成本極高,主要因為通用伺服器的購置和運維成本居高不下。而傳統伺服器通常包含處理器摸塊、存儲子產品、網絡子產品、電源、風扇等全套裝置。雲計算伺服器體系結構精簡,省去重複的子產品,提高了使用率。此外,雲計算伺服器針對節能需求,将存儲子產品進行虛拟化,并去除了主機闆上的非必要硬體,降低了整體計算成本。另外,流量計費模式也有助于許多廠商負擔算力開支,降低了算力采購門檻。

四、邊緣伺服器:高資料密度和帶寬限制下保證低延遲時間

邊緣計算是一種在雲計算基礎之上引入邊緣層的計算模式。它位于靠近物或資料源頭的網絡邊緣,通過提供計算、存儲和網絡等資源來協助應用程式。邊緣計算基于一個新的體系架構,引入了邊緣層,使得雲服務可以擴充到網絡邊緣。在這個體系架構中,終端層由物聯網裝置組成,這些裝置位于最靠近使用者的地方,負責收集原始資料并上傳至上層進行計算;邊緣層則由路由器、網關、邊緣伺服器等裝置組成,這些裝置由于距離使用者較近,可以運作延遲敏感型應用程式,滿足使用者對低延遲時間的要求;雲層則由高性能伺服器等裝置組成,可以處理複雜的計算任務。

如何建構可持續的ChatGPT高性能伺服器端架構?

邊緣計算架構

邊緣計算相對于雲計算具有實時性、低成本和安全性等優勢。它将計算任務從雲計算中心部分或全部遷移到離使用者更近的網絡邊緣進行處理,進而提高了資料傳輸性能和處理的實時性。同時,邊緣計算還可以避免遠距離傳輸資料帶來的成本問題,并降低雲計算中心的計算負載。此外,邊緣計算将大部分資料在本地裝置和邊緣層裝置中處理,減少上傳至雲端的資料量,降低了資料洩露的風險,是以具備更高的安全性。

五、AI伺服器:更适合深度學習等AI訓練場景

在現代AI領域中,由于大規模的計算需求,普通的CPU伺服器已經不能滿足需求。相較于CPU,GPU(圖形處理單元)具備更适合進行大規模并行計算的架構設計,是以AI伺服器采用GPU架構來提高計算性能。

與通用伺服器不同的是,AI伺服器為異構伺服器。意味着它可以使用不同的組合方式來提高計算性能,例如使用CPUGPU、CPUTPU、CPU其他加速卡等,但是以GPU提供計算能力為主要方式。

以ChatGPT模型為例,它采用了并行計算的方式。相比于RNN模型,它能夠為輸入序列中的任何字元提供上下文,進而不僅精度更高,而且可以一次處理所有輸入,而不是一次隻處理一個詞。

從GPU的計算方式來看,GPU架構采用了大量的計算單元和超長的流水線,是以與CPU相比,可以進行大吞吐量的并行計算。這種計算能力特别适合進行大規模AI并行計算。

如何建構可持續的ChatGPT高性能伺服器端架構?

深度學習主要進行矩陣向量計算,AI伺服器處理效率更高。從ChatGPT模型結構來看,基于Transformer架構,ChatGPT模型采用注意力機制進行文本單詞權重指派,并向前饋神經網絡輸出數值結果,這一過程需要進行大量向量及張量運算。而AI伺服器中往往內建多個AI GPU,AI GPU通常支援多重矩陣運算,例如卷積、池化和激活函數,以加速深度學習算法的運算。是以在人工智能場景下,AI伺服器往往較GPU伺服器計算效率更高,具備一定應用優勢。

六、ChatGPT需要的晶片:CPU+GPU、FPGA、ASIC

GPT模型訓練需要大算力支援,或将帶來AI伺服器建設需求。我們認為,随着國内廠商陸續布局ChatGPT類似産品,GPT大模型預訓練、調優及日常營運或将帶來大量算力需求,進而帶動國内AI伺服器市場放量。以GPT-3 175B模型預訓練過程為例,據OpenAI,進行一次GPT-3 175B模型的預訓練需要的算力約3640 PFlop/s-day。我們假設以浪潮資訊目前算力最強的AI伺服器NF5688M6(PFlop/s)進行計算,在預訓練期限分别為3、5、10天的假設下,單一廠商需采購的AI伺服器數量分别為243、146、73台。

如何建構可持續的ChatGPT高性能伺服器端架構?
如何建構可持續的ChatGPT高性能伺服器端架構?

AI大模型訓練需求火熱,智能算力規模增長有望帶動AI伺服器放量。據IDC資料,以半精度(FP16)運算能力換算,2021年中國智能算力規模約155.2EFLOPS。随着AI模型日益複雜、計算資料量快速增長、人工智能應用場景不斷深化,未來國内智能算力規模有望實作快速增長。IDC預計2022年國内智能算力規模将同比增長72.7%至268.0 EFLOPS,預計2026年智能算力規模将達1271.4 EFLOPS,2022-2026年算力規模CAGR将達69.2%。我們認為,AI伺服器作為承載智能算力運算的主要基礎設施,有望受益于下遊需求放量。

總結

ChatGPT是一個高性能的檔案傳輸協定,需要一個可持續的伺服器端架構來支援它的持續發展。以下是一個簡單的指南:

一、了解客戶需求

在建構任何伺服器端架構之前,需要知道客戶的需求。你需要考慮的問題包括:

1、使用者數量:預計有多少使用者使用服務?

2、資料量:每個使用者将存儲多少資料?預計服務将處理多少資料?

3、裝置類型和平台:使用者将使用哪些裝置和平台來通路服務?

二、選擇正确的基礎架構

選擇正确的基礎架構對于建構可持續的伺服器端架構至關重要。其中一些常見的選擇包括:

1、實體伺服器:這是在本地運作伺服器的經典方式。這需要購買伺服器硬體和管理基礎架構。

2、虛拟專用伺服器(VPS):VPS是在共享實體伺服器上運作的虛拟伺服器。大多數雲服務商都提供VPS。

3、雲計算:雲計算允許你根據實際使用情況逐漸擴充和縮小基礎架構。其中一些提供商包括Amazon Web Services(AWS)、Microsoft Azure和Google Cloud Platform(GCP)。

三、設計可擴充的架構

在設計你的伺服器端架構時,你需要考慮如何擴充它以處理更多的流量和使用者。其中一些關鍵考慮因素包括:

1、橫向擴充:這是向系統添加更多伺服器以處理更多流量和使用者的過程。

2、縱向擴充:這是将相同的伺服器更新以處理更多流量和使用者的過程。

3、負載均衡:這是将請求配置設定給多個伺服器以減輕負載的過程。

4、緩存:這是将請求的結果存儲在記憶體中以提高響應速度的過程。

四、確定安全和可靠性

在建構任何伺服器端架構時,安全和可靠性都是至關重要的。這意味着你需要考慮以下事項:

1、資料備份和恢複:你需要定期備份資料,以防止資料丢失,并在必要時能夠快速恢複資料。

2、安全性:你需要確定你的伺服器端架構是安全的,包括使用安全的傳輸協定、對資料進行加密等。

3、監控和警報:你需要設定監控和警報系統,以便在伺服器出現問題時及時得到通知。

可持續的ChatGPT高性能伺服器端架構需要考慮多個因素,包括使用者需求、基礎架構選擇、可擴充性設計以及安全和可靠性保障。通過綜合評估這些要素并采取相應的措施。

繼續閱讀