天天看點

AI 的基本要素:揭秘基礎模型的作用與價值

作者:NVIDIA英偉達中國

本文屬于《解碼 AI》系列欄目,該系列的目的是讓技術更加簡單易懂,進而解密 AI,同時向 RTX PC 使用者展示全新硬體、軟體、工具和加速特性。

這些神經網絡基于海量資料訓練,可為推動生成式 AI 革命的應用提供支援。

AI 的基本要素:揭秘基礎模型的作用與價值

萬丈高樓平地起,一磚一瓦皆根基。由 AI 驅動的應用也是如此。

基礎模型是利用海量原始資料訓練而成的 AI 神經網絡,其訓練以無監督式學習為主。

這種 AI 模型經過專門訓練,可以了解并生成人類語言。想象一下,将一台計算機放在偌大的圖書館裡,并準備大量的書籍供它閱讀和學習,随後它就能像人類一樣了解上下文,以及詞句背後的含義了。

AI 的基本要素:揭秘基礎模型的作用與價值

基礎模型

因其具備強大的知識庫和使用自然語言進行交流的能力,基礎模型的應用範圍非常廣泛,包括生成和總結文本、輔助生成和分析計算機代碼、創作圖像和視訊,以及進行音頻轉錄和語音合成。

ChatGPT,作為盡人皆知的生成式 AI 的典型代表,就是基于 GPT 基礎模型建構的聊天機器人,該模型目前已推出第四版,即 GPT-4。已經是既能接收文本或圖像,也能生成文本或圖像回應的大型多模态模型了。

通常情況下,基于基礎模型建構的線上應用需要通過資料中心來通路這些模型。但現在,許多此類模型及其驅動的應用都能在配備 NVIDIA RTX GPU 的 PC 和工作站上本地運作。

基礎模型的用途

基礎模型具有各種各樣的功能,包括:

  • 語言處理:了解和生成文本
  • 代碼生成:對計算機代碼進行分析和調試(支援多種程式設計語言)
  • 視覺處理:分析和生成圖像
  • 語音:根據文本生成語音,以及将語音轉錄為文本

使用者可以進一步優化基礎模型或直接将其投入使用。為每個生成式 AI 應用訓練全新的 AI 模型是相當耗資費時的,是以使用者往往會通過對基礎模型進行微調來滿足特定的應用場景。

得益于提示詞和檢索增強生成(RAG)等資料檢索技術,經過預訓練的基礎模型可展現出出衆性能。此外,基礎模型也很擅長遷移學習,這代表使用者可以訓練模型執行與其初始用途相關的第二個任務。

例如,如果一款通用大語言模型(LLM)的功能是與人類對話,那在經過進一步訓練後,該模型就能被用作客服聊天機器人,利用企業知識庫來為客戶答疑解惑。

如今,各行各業的公司都會對基礎模型進行微調,以便将各自 AI 應用的性能發揮到極緻。

基礎模型的種類

目前,投入使用的基礎模型已超過 100 種,而這個數字還将持續增長。LLM 和圖像生成器是非常熱門的兩類基礎模型。任何人都可以通過 NVIDIA API 目錄免費試用多種此類模型,且這種試用對硬體沒有要求。

LLM 模型能夠了解自然語言并對問題做出回應。例如,Google 的 Gemma 就很擅長文本了解和轉換,以及代碼生成。如果問它關于天文學家 Cornelius Gemma 的問題,它會回答:“他在天文導航和天文學方面的貢獻為科學進步帶來了重大影響。” 同時,它還會提供 Cornelius Gemma 的主要成就、寶貴遺産等方面的資訊。

Google 的 CodeGemma 由 RTX GPU 上的 NVIDIA TensorRT-LLM 加速,可為開發者社群帶來強大的輕量化編碼功能,進一步擴充了 NVIDIA 和 Google 在 Gemma 模型方面的協作。CodeGemma 提供了 7B 和 2B 兩種預訓練模型,專用于代碼補全和代碼生成任務。

MistralAI 的 Mistral LLM 能夠遵循使用者指令,完成各種請求和生成創意文本。事實上,這篇文章的标題請 Mistral 使用了 “AI 解碼”的近義詞,然後它就給出了現在的标題,并進一步編寫了基礎模型的定義。

AI 的基本要素:揭秘基礎模型的作用與價值

名副其實的 Hello, world

Meta 的 Llama 2 是一款先進的 LLM,可以根據提示詞生成文本和代碼。

使用者可通過 NVIDIA ChatRTX 技術示範應用,在 RTX PC 和工作站上體驗 Mistral 和 Llama 2。ChatRTX 允許使用者通過 RAG 将基礎模型與其個人資料(例如文檔、醫生筆記及其他資料)關聯,實作模型的個人化。ChatRTX 由 TensorRT-LLM 加速,可迅速提供與上下文相關的回答。此外,ChatRTX 在本地運作,既保證資料安全,又實作快速響應。

使用者可通過 StabilityAI 的 Stable Diffusion XL 和 SDXL Turbo 等圖像生成器生成各種圖像和令人驚豔的逼真視覺效果。StabilityAI 的視訊生成器 Stable Video Diffusion 會以單個圖像為條件幀,并利用生成式擴散模型基于條件幀生成多個幀,再将其合成為視訊序列。

多模态基礎模型能夠同時處理多類資料(例如文本和圖像),生成更為複雜的輸出。

如果一款多模态模型同時支援文本和圖像,那麼使用者就可以上傳圖像并詢問與該圖像相關的問題。這類模型正在快速融入客服等實際應用領域,相比于傳統手冊,它們能夠更快作出回應,也更便于使用者使用。

AI 的基本要素:揭秘基礎模型的作用與價值

Kosmos 2 是 Microsoft 的開創性多模态模型,旨在按照人類的模式了解和處理圖像中的視覺元素。

思考時放眼全球,運作 AI 模型時立足“本地”

NVIDIA RTX GPU 能夠在本地運作基礎模型。

既保證資料安全,又實作快速響應。這是因為使用者無需依靠基于雲的服務,隻需利用 ChatRTX 等應用就能在本地 PC 上處理敏感資料,不必連接配接網際網路或與第三方共享資料。

使用者可以清單中選擇開放的基礎模型并下載下傳,然後在自己的硬體上運作。與使用基于雲的應用和 API 相比,這種方式不僅成本更低,還能解決延遲和網絡連接配接方面的問題。

繼續閱讀