被AI大牛押注的智能體，國内發展得怎樣了？

前段時間，前特斯拉總監、OpenAI大牛Karpathy的一句話，引起了業内的關注。

在7月初的一次開發者大會上，Karpathy聲稱：“我被自動駕駛分了心，AI智能體才是未來！”并表示将來會全力投入對智能體的研發工作中。

其實，早在2016年，當Karpathy開始在OpenAI工作時，就已經錨定了智能體的方向，隻是由于當時的研究方法還不成熟，是以Karpathy才轉去做了自動駕駛。

那麼，這所謂的“智能體”究竟是什麼？為什麼會讓這位AI大牛長久地念念不忘？

如果用一句話來回答這個問題，我們可以說：

智能體的出現，不僅是AI發展的下一個方向，也是其真正走進人類生活的開始。

1 何謂智能體

到底什麼是智能體？

如果我們将現在的生成式AI，比作一個人的話，那麼它隻具有了大腦（大語言模型），但卻沒有身體，是以隻能躺在伺服器上，做一些處理文字、生成圖檔的工作。

而智能體，就相當于是大模型的“身體”，有了它，大模型才能在更多的領域施展身手。

那智能體究竟能做什麼？

最近，一個名叫Fable的初創公司，釋出了一個節目統籌智能體（Showrunner），如同一聲驚雷炸響，讓人們再次見證了智能體的強大。

通過這樣的智能體，Fable制作出了一集完全用AI拍攝的《南方公園》！

從編劇、動畫、導演、語音、編輯……到劇集制作的全流程，都是由AI完成。

在整個制作環節中，通過自然語言，給不同的智能體配置設定了各自的目标，人類導演隻需要給出一個高層次的構思提示（标題、概要、事件），這些AI智能體就會開始「自導自演」。

之後，人類幾乎就不用進行任何幹涉了！

在制作過程中，不同的AI智能體，擔任了不同的角色，如演員、導演、剪輯等，它們彼此分工合作，互相配合，最終完成了整部影片的制作。

而同樣的，類似的案例，也出現在前段時間清華團隊的研究中。

7月19日，清華團隊用ChatGPT打造了個零人工含量的“遊戲公司”——ChatDev，隻要你提出想法，從設計到測試的完整流程，都由AI幫忙搞定。

Fable與制作《南方公園》的思路類似，在遊戲開發的環節中，ChatDev的十多個智能體也分别擔任了這個“公司”中的策劃、程式員、設計師等不同的崗位。

在項目開始時，人類可以對這些AI提出一個大概的想法或創意。

之後，各個智能體之間就會進行一系列讨論、制作、測試的環節，整個過程完全不需要人類的參與，全是自動進行的。

由此可見，有了智能體之後，大模型就能根據人類給出的規則和政策來做出決策，而不需要人類的幹預或指令。

在這個過程中，智能體還會通過習得的經驗或知識，來改善自己的性能和适應性，并根據目标函數或獎勵函數來評估自己的行為。

而這樣的能力，是以往的大模型（LLM）無論如何都不具備的。

是以，LLM即使再聰明，也是一個沒有身體的“大腦”，而正是智能體的出現，讓LLM有了行動的能力，有了自主完成複雜任務的能力。

而這樣的能力，正是LLM下一階段進行在應用層面進行落地的關鍵。

2 國内智能體進展

既然智能體這麼重要，那國内在這方面發展得怎樣了呢？

在今年的 2023 世界人工智能大會上，聯彙科技釋出了基于大模型自主智能體(Auto AI Agent )——OmBot 歐姆智能體，并針對典型場景需求，推出了首批應用。

要想打造一個真正的智能體，最關鍵的地方，就在于讓AI不依賴人類來指導指令，能夠根據任務目标，主動完成任務。

而要想實作這點，就必須讓AI具備認知、記憶、思考、行動等幾大核心能力，使之能夠感覺環境、自主決策，并且模仿人類大腦工作機制。

在這方面，聯彙科技多年的研究成果——歐姆大模型3.0，成為了孕育OmBot 歐姆智能體的搖籃。

歐姆大模型3.0培養智能體的思路是：在智能體的諸多能力中，認知和思考能力是最關鍵的。

而要鍛煉這樣的能力，就要通過大量的開放識别、視覺問答等訓練方式，來讓智能體從被動的識别轉為主動推理，并自主提出解決方案。

例如通過讓智能體觀看不同的圖檔、視訊，并讓其通過語義去了解和描述其中的目标。

而之是以要選擇開放識别、視覺問答為主的訓練方式，是因為在各個行業中，都存在着大量的特定場景和任務，需要對視訊中的内容進行精準的識别、分析。

但這些場景和任務，往往是非常細分和多樣化的，難以用通用的模型和方法來滿足，于是就造成了各行各業對智能識别的大量長尾需求。

在對這些視覺資訊進行分析的過程中，歐姆大模型會通過多輪對話推理的機制，将圖像、視訊、以及相關的問題或回報等輸入轉換為特征向量，并存儲在一個記憶單元中，

之後，大模型的解碼器就會負責根據記憶單元中的特征向量生成最終的回複。

在對一張張圖檔，一段段視訊的對話問答中，歐姆大模型會将視覺模型和語言模型進行細粒度的對齊，讓其可以了解人類指令，并合理作答。

那麼，這些經過了不同行業視覺資料曆練的智能體，後來怎樣了？能在實際場景中展現實力了嗎？

目前，歐姆智能體的主要應用場景，大緻分為三類：智慧店長、文檔處理、視訊剪輯。

如果說，智能體最重要的能力是其是否具備自主分析、決策的能力，那麼我們不妨将歐姆智能體在這三大場景中的表現，與傳統手段進行對比，看看其是否具有了真正意義上的智能體的特征。

3 解決“落地焦慮”

簡單來說，智慧店長主要就是通過與攝像頭視覺資訊結合，利用歐姆大模型智能識别店内發生的一切。

在這方面，傳統的攝像頭隻能提供視訊監控的功能，無法對視訊畫面進行智能分析、處理、互動和回報。

而具備了智能體後，智慧店長就能通過與攝像頭視覺資訊結合，識别店内發生的一切，并自主決策提示互動資訊。

例如實時監測和分析客流量、客戶特征等資料，遇到突發情況時，還看自動報警和處置店内的安全隐患。

在文檔處理方面，按照聯彙科技的說法，歐姆智能體最大的優勢，是可以将專業知識有效內建到向量資料庫，并存儲記憶，形成專業機器人。

而一個具備了智能體的大模型，與傳統的行業垂直類大模型相比，最獨特的優勢，是其持續學習和适應能力，而非依賴于靜态的資料集。

在這方面，隻能說歐姆智能體具備了其持續學習的基礎。

因為向量資料庫與傳統資料庫相比，采用靈活的資料結構，如多模态的資料支援，而将不同結構的知識進行整合，正是持續學習的基礎。

但其是否真的具備這樣的持續學習能力，也許還要進行長時間的觀察。

而在視訊剪輯方面，AIGC 小歐可以成為媒體、文化、遊戲等行業的剪輯助手。通過 AIGC 實作媒體視訊素材的一鍵成片。

可以說，這是智能體能力展現得最直接的一個方面，通過語言了解能力，智能體在剪輯過程中，可以自動依據文案内容，對不同鏡頭添加更加細節的視訊鏡頭描述，進而省去了人工制作視訊中，繁瑣的文字與鏡頭之間的比對工作。

從上述幾點來看，歐姆智能體确實具備了一定的智能體特征，然而，即便如此，在其商業化落地的過程中，仍然會面臨不少挑戰。

從目前歐姆智能體的落地方向上來看，其本質上走的還是一種“松耦合”的技術路線。

所謂的“松耦合”，簡單來說，不同任務分解，通過不同智能體來完成，最後通過大模型來完成自動化排程和協作。

比如語言大模型來學習對話、視覺大模型來識别地圖。

這類智能體，雖然從不像人一樣有綜合智能，但從成本和可行性上，卻能更快落地。

然而，這樣的“松耦合”路線，由于技術壁壘并不高，在競争中很容易遭到同類型智能體的擠壓，進而導緻毛利率不斷下降，以至于技術紅利很快走到盡頭。

到了那時，一種端到端的，一個大模型就能包辦所有的“緊耦合”路線，就會成為行業共同的期盼。

但這樣一種集合了多種智能，能适應各種任務的智能體，必定蘊含了更多技術含量頗高的“硬科技”，而國内團隊是否能一一攻破這些難關，仍是個未知數。

本文源自阿爾法工場