AI 的基本要素：揭秘基礎模型的作用與價值

本文屬于《解碼 AI》系列欄目，該系列的目的是讓技術更加簡單易懂，進而解密 AI，同時向 RTX PC 使用者展示全新硬體、軟體、工具和加速特性。

這些神經網絡基于海量資料訓練，可為推動生成式 AI 革命的應用提供支援。

萬丈高樓平地起，一磚一瓦皆根基。由 AI 驅動的應用也是如此。

基礎模型是利用海量原始資料訓練而成的 AI 神經網絡，其訓練以無監督式學習為主。

這種 AI 模型經過專門訓練，可以了解并生成人類語言。想象一下，将一台計算機放在偌大的圖書館裡，并準備大量的書籍供它閱讀和學習，随後它就能像人類一樣了解上下文，以及詞句背後的含義了。

基礎模型

因其具備強大的知識庫和使用自然語言進行交流的能力，基礎模型的應用範圍非常廣泛，包括生成和總結文本、輔助生成和分析計算機代碼、創作圖像和視訊，以及進行音頻轉錄和語音合成。

ChatGPT，作為盡人皆知的生成式 AI 的典型代表，就是基于 GPT 基礎模型建構的聊天機器人，該模型目前已推出第四版，即 GPT-4。已經是既能接收文本或圖像，也能生成文本或圖像回應的大型多模态模型了。

通常情況下，基于基礎模型建構的線上應用需要通過資料中心來通路這些模型。但現在，許多此類模型及其驅動的應用都能在配備 NVIDIA RTX GPU 的 PC 和工作站上本地運作。

基礎模型的用途

基礎模型具有各種各樣的功能，包括：

語言處理：了解和生成文本
代碼生成：對計算機代碼進行分析和調試（支援多種程式設計語言）
視覺處理：分析和生成圖像
語音：根據文本生成語音，以及将語音轉錄為文本

使用者可以進一步優化基礎模型或直接将其投入使用。為每個生成式 AI 應用訓練全新的 AI 模型是相當耗資費時的，是以使用者往往會通過對基礎模型進行微調來滿足特定的應用場景。

得益于提示詞和檢索增強生成（RAG）等資料檢索技術，經過預訓練的基礎模型可展現出出衆性能。此外，基礎模型也很擅長遷移學習，這代表使用者可以訓練模型執行與其初始用途相關的第二個任務。

例如，如果一款通用大語言模型（LLM）的功能是與人類對話，那在經過進一步訓練後，該模型就能被用作客服聊天機器人，利用企業知識庫來為客戶答疑解惑。

如今，各行各業的公司都會對基礎模型進行微調，以便将各自 AI 應用的性能發揮到極緻。

基礎模型的種類

目前，投入使用的基礎模型已超過 100 種，而這個數字還将持續增長。LLM 和圖像生成器是非常熱門的兩類基礎模型。任何人都可以通過 NVIDIA API 目錄免費試用多種此類模型，且這種試用對硬體沒有要求。

LLM 模型能夠了解自然語言并對問題做出回應。例如，Google 的 Gemma 就很擅長文本了解和轉換，以及代碼生成。如果問它關于天文學家 Cornelius Gemma 的問題，它會回答：“他在天文導航和天文學方面的貢獻為科學進步帶來了重大影響。” 同時，它還會提供 Cornelius Gemma 的主要成就、寶貴遺産等方面的資訊。

Google 的 CodeGemma 由 RTX GPU 上的 NVIDIA TensorRT-LLM 加速，可為開發者社群帶來強大的輕量化編碼功能，進一步擴充了 NVIDIA 和 Google 在 Gemma 模型方面的協作。CodeGemma 提供了 7B 和 2B 兩種預訓練模型，專用于代碼補全和代碼生成任務。

MistralAI 的 Mistral LLM 能夠遵循使用者指令，完成各種請求和生成創意文本。事實上，這篇文章的标題請 Mistral 使用了 “AI 解碼”的近義詞，然後它就給出了現在的标題，并進一步編寫了基礎模型的定義。

名副其實的 Hello, world

Meta 的 Llama 2 是一款先進的 LLM，可以根據提示詞生成文本和代碼。

使用者可通過 NVIDIA ChatRTX 技術示範應用，在 RTX PC 和工作站上體驗 Mistral 和 Llama 2。ChatRTX 允許使用者通過 RAG 将基礎模型與其個人資料（例如文檔、醫生筆記及其他資料）關聯，實作模型的個人化。ChatRTX 由 TensorRT-LLM 加速，可迅速提供與上下文相關的回答。此外，ChatRTX 在本地運作，既保證資料安全，又實作快速響應。

使用者可通過 StabilityAI 的 Stable Diffusion XL 和 SDXL Turbo 等圖像生成器生成各種圖像和令人驚豔的逼真視覺效果。StabilityAI 的視訊生成器 Stable Video Diffusion 會以單個圖像為條件幀，并利用生成式擴散模型基于條件幀生成多個幀，再将其合成為視訊序列。

多模态基礎模型能夠同時處理多類資料（例如文本和圖像），生成更為複雜的輸出。

如果一款多模态模型同時支援文本和圖像，那麼使用者就可以上傳圖像并詢問與該圖像相關的問題。這類模型正在快速融入客服等實際應用領域，相比于傳統手冊，它們能夠更快作出回應，也更便于使用者使用。

Kosmos 2 是 Microsoft 的開創性多模态模型，旨在按照人類的模式了解和處理圖像中的視覺元素。

思考時放眼全球，運作 AI 模型時立足“本地”

NVIDIA RTX GPU 能夠在本地運作基礎模型。

既保證資料安全，又實作快速響應。這是因為使用者無需依靠基于雲的服務，隻需利用 ChatRTX 等應用就能在本地 PC 上處理敏感資料，不必連接配接網際網路或與第三方共享資料。

使用者可以清單中選擇開放的基礎模型并下載下傳，然後在自己的硬體上運作。與使用基于雲的應用和 API 相比，這種方式不僅成本更低，還能解決延遲和網絡連接配接方面的問題。

AI 的基本要素：揭秘基礎模型的作用與價值

繼續閱讀

全面超越！開源！百度最強SOTA：基于擴散模型的3DGS！

沖刺2024“半年紅” | 六成AI企業實作盈利增長，大模型企業賺錢了？

對話優必選焦繼超：大模型加速人形機器人“進廠打工”

科大訊飛的盈利迷局：在大模型領域的高投入與低回報

阿裡林俊旸：大模型對很多人來說不夠用，打造多模态Agent是關鍵

AI教母李飛飛創辦空間智能公司，力圖克服大模型AI技術的現有局限

《蝴蝶模型》經典例題課堂筆記

“AI教母”李飛飛創辦空間智能公司，力圖克服大模型等AI技術的現有局限

大模型搞“人肉搜尋”，準确率高達95.8%！研究作者：已提醒

産品人生（4）：從“使用者故事映射法”到“WOOP思維模型”

測繪通報 | 李亞雲：多尺度人口空間大資料聚合模型在地圖可視化中的研究與應用

Kimi大模型：優勢明顯，但是一場燒錢的遊戲

周日靜學（139）：期刊論文2.1 傳統供應鍊下批發價契約模型

美國東北大學提出視訊資料增強方法，能讓視訊模型學到更好的表征

吉利浩瀚平台+百度AI大模型，極越07才是小米SU7最強對手？

浮力計算8大計算模型