賈浩楠 發自 副駕寺智能車參考 | 公衆号 AI4Auto
大模型威力滲透各行各業,汽車人在躁動和焦急中期待行業巨變。但截至目前大模型上車的尴尬現狀是:與車無關。
類似“文生圖”之類功能,和核心行車用車場景不搭邊,甚至算不上好的車内娛樂。至于車企的AI轉型,顯然更幫不上忙。
大模型重塑生産力,汽車工業不能夠也不應該被落下。AI界産學研其實一直在思考、實踐。
近期,一份由産學研各界共同釋出的《大模型驅動的汽車行業群體智能技術白皮書》,首次說清楚了汽車工業全流程中,大模型到底該怎麼用。
汽車行業大模型,有什麼用?
先斷一下句:汽車·行業大模型,這樣了解更為準确。
因為這份白皮書中提出的大模型,不是面向普通使用者的“文生圖”之類的應用,而是為車企生産營運流程提供服務的群體智能産品。
什麼是群體智能?
針對特定任務的AI模型是一個智能體,群體智能是指多個智能體通過協作和資訊共享,形成的集體智慧,能夠處理更加複雜的任務,展現出超越單個智能體的能力。自然界中的蜂、蟻等物種都表現出這樣的群體智能。
而大模型能力加持的群體智能,能夠更高效地溝通,處理規模更大、種類更多的任務。
車企營運流程中的整車制造、供應鍊、 研發和工程、銷售和分銷、市場營銷、售後服務、貿易與物流、租賃和金融服務、回收跟再創造等各個環節,群體智能不僅僅是簡單的自動化工具,它可以為汽車行業帶來前所未有的效率提升和個性化體驗。
比如汽車制造環節,通過多智能體的自動互動,可以實時監測生産線的運作狀态,能夠預測裝置的維護需求,進而顯著減少意外停機時間。
此外,智能體們還能通過智能分析生産資料,幫助制造商優化零部件的庫存管理和供應鍊,這不僅減少了庫存成本,也提高了生産效率。
以及,跨部門的智能體們,還可以根據市場需求、原材料的供應狀況和生産能力,智能調整生産計劃, 確定生産線的高效運轉。
除了“造好車”,以大語言模型為基礎的群體智能,價值更加展現在幫車企“賣好車”上。
汽車的營銷環節,通常分為獲客、清洗、轉化、接待和成交五個方面。
前期通過廣告、品牌活動、汽車垂媒、品牌私域、 内容種草等等手段獲客,可以迅速獲得大量的潛在客戶基礎畫像與聯系方式。接下來就是一系列溝通、實車、講解的“孵化培育”工作。
周期較長、轉化率較低,尤其依賴銷售個人溝通能力、精力,有很大不确定性。
《白皮書》中,建構了五大智慧營銷解決方案,分别為數智研究院場景解決方案、新媒體營運場景解決方案、使用者營運場景解決方案、集約DDC場景解決方案、與情營運場景解決方案。
全部以銷售結果為導向,形成自動化的流水線式工作流,重點是采用不同的多智能體組合,模拟各階段的工作角色。
例如對于客戶定制化的購車需求,“銷售智能體會”收集使用者個人情況,分析出高比對度的需求車型,再以專業的話術表達出結果,并采用多輪對話的方式, 與客戶一起讨論出最佳的銷售方案。
同時,營運主管智能體可以在環節中實時檢查智能體跟進情況,進行跟進情況、品質分析、檢視客戶畫像,回報給智能體監控平台。任何客戶營運智能體和客戶交流的經驗都會随着案例的增加而沉澱下來,形成智能體工作流的疊代機制,進而使得智能體孵化客戶的效率在沉澱中不斷提高。
是以在在智能體智慧銷售場景下,一個人類銷售經理,可以僅通過多智能體監控平台實時檢視整個組織多智能體的工作情況,工作能力邊界與範圍得到了極大拓展。
最後總結一下,清華自然語言處理實驗室、易慧智能、面壁智能在白皮書書中提出了一種全新、To B的大模型“上車”模式:
用不同的AI模型替代車企業務流程中的不同工種,簡單地說,就是數字員工。
但創新之處在于,它們不是針對簡單重複任務的自動化替代,而是一群數字員工[6] 之間,通過自然語言互相交流協作,在沒有形式上的“主腦”控制情況下,發揮出提質增效的作用。
并且,這樣的協同可适用于從生産到銷售的幾乎各個環節。
是這樣一群數字員工具有基本工作能力和溝通能力的,就是具備一定AGI(通用人工智能)的大模型。
怎麼實作的?
單個智能體相對好做,針對不同任務有不同的基礎模型,比如用在分類目标檢測的ResNet、用來産生樣本的GAN等等……隻要有合适的資料來訓練。
但一個業務流程,或一個系統工程,需要很多這樣的基礎模型發揮作用。以往,這些模型幾乎談不上溝通聯系,協作基本靠人為書寫的規則。這就造成資訊處理能力有限,輸出決策片面分散,以及維護成本很高。
而《白皮書》中提出的群體智能之是以能work,關鍵是組織孿生。
包括三個關鍵部分:崗位孿生、架構孿生和 業務孿生。
其中,崗位孿生利用大模型技術建立數字員工,這些虛拟人能模拟真人的交流方式,包 括聲音和表情,并具備“感性智能”。它們能夠執行内容生成、基礎交流、客戶服務等工作。
智能體系統有專用的提示詞架構,通過按照提升詞架構來巧妙設計與崗位相關的提示詞,并精準限定基座大模型回答問題的範圍、方式等等。
不過基座大模型是通用語言模型,其内置的知識是通用的,對于特定領域的問題可能無法給出準确的答案。為此,還特地引入檢索增強生成(RAG)技術,可以将特定領域的文檔和問答灌入系統,形成“長期記憶”存儲于向量資料庫或搜尋系統中。在生成過程中,将相關記憶注入到提詞中,使數字員工能夠精準回答特定領域的問題,進而彌補基座大模型的潛在不足。
比如在在汽車領域,可以讓智能體調用 API 接口,并根據接口傳回的行業知識,進行專業、可溯源的内容生成。而當提示詞工程和知識庫類的長期記憶補充依然不能完全滿足業務需求時,還能夠采用高效後預訓練和高效微調技術。通過微調和後預訓練,我們能夠“教給”大模型相關的垂直領域知識,為數字員工賦予個性化,使其更好地适應不同的業務場景和使用者需求。
架構孿生則是在數字世界中映射真實公司的組織架構,通過智能體網絡技術定義智能體間的交流和邏輯。可以形象地了解為上面那群數字員工需要遵循的“OA流程”。
基于大模型群體智能體技術,如 AgentVerse(清華自然語言處理實驗室和面壁智能共同研發),不僅能夠定義智能體本身的記憶、能力,還能夠定義智能體之間交流的方式和邏輯,能夠一定程度把現實人類的組織架構映射到數字孿生世界,生成對應真實公司架構的數字孿生架構。
這種技術架構,通常将多智能體環境劃分為數個功能子產品,包括靈活代碼擴充及定制化功能設計架構、 智能體語言互動協同合作機制、智能體系統功能與結構演化機制等。
整體工作流程分為四個階段:專家招募階段,根據問題解決的進展情況确定和調整座席人員組成。協作決策階段,標明的智能體進行聯合讨論以制定解決問題的政策。行動執行階段,智能體與環境互動以實施決策階段計劃的行動。評估和回報階段,對目前狀态與期望結果之間的差異進行評估, 如果目前狀态不理想,則給出回報,以便在下一次疊代中進一步細化。
技術架構技術上,定義了各自的接口,使用者可以根據自身需求重新定義不同子產品的功能。這種可定制性使得數字孿生的架構不再受到固定的限制,而能夠根據不同行業和企業的需求進行靈活調整。使用者可以根據特定的場景和任務要求,定制數字孿生的架構,使其更好地适應實際應用場景。
業務孿生通過整合大語言模型、搜尋增強技術和智能體建構等,自動執行實際業務,優化業務執行效果。這一部分仍然是利用大模型的“工具”,給數字員工[10] 增強戰鬥力。
比如X Agent是面壁智能創新的AI智能體架構,基于強大的大語言模型核心,設計創新性地引入了一種“雙循環機制”,使其在處理複雜任務時能夠從“宏觀”和 “微觀”兩個視角進行全面考慮,類似于人類“左腦”和“右腦”的協同工作方式。
外循環承擔着全局任務規劃的責任,将複雜任務巧妙地分解為可操作的簡單任務,使得 X Agent 能夠高效地完成全局的任務分解和規劃,展現出宏觀任務處理的上司力。
在内循環中,X Agent 迅速轉變身份,充當高效的「執行者」,確定外循環傳遞的子任務能夠順利達到預期。它能夠靈活地檢索外部系統中的工具,并根據子任務性質逐漸求解。
完成子任務後, 内循環生成詳細的反思,并将回報資訊傳遞給外循環,訓示目前任務是否完成,以及在任務執行中的潛在優化點。
是以,一切的關鍵,就在大模型上。這裡不妨再簡單科普一下大模型:
現有的大語言模型幾乎全部是以 Transformer 模型作為基礎架構來建構的。其主要思想是通過自注意力機制擷取輸入序列(可以是文本、語音、圖像、視訊等等)的全局資訊,并對序列中的每個元素進行全局模組化,并在各個元素之間建立聯系**。
翻譯一下,就是Transformer在感覺之外,擁有了基本的歸納因果的能力,使人工智能向認知這個世界邁出第一步。
是以《白皮書》中構提出的群體智能,它的基礎就是清華自然語言處理實驗室、易慧智能、面壁智能的具有一定通識能力的大模型。
傳統AI Agent,也就是單一人工智能體,同樣具有感覺、決策、知行的能力,但它的任務目标單一,輸入的資料也比較固定。
而對于大模型來說,與人類之間的互動是基于提示(Prompt)實作的, 使用者提示是否清晰明确會影響大模型回答的效果。大模型“大”在以巨大參數規模捕捉複雜語言結構,實作上下文了解和連貫文本輸出。這一“能力湧現”現象展現在大模型能進行進階認知任務,如抽象思考和創造性寫作。ChatGPT橫空出世震驚世人,正是因為它對幾乎人類涉足的各領域都有準确的認知。
如果這樣的能力灌注到一群不同的智能體中,它們就可以直接使⽤複雜的⾃然語⾔進⾏交流。
并⽀持抽象思維、複雜問題解決和豐富的資訊交換。基于對語⾔資訊的深⼊了解和分析,可以在決策中考慮更⼴泛和深⼊的因素。
比如軟體開發任務,就可以分解為一連串的“生産線”,子任務通過角色扮演交流實作智能體間的方案提議和決策研讨過程:
首先設計三個角色CEO、CTO和CPO讨論軟體設計方案,決定智能駕駛算法的功能體驗使用的程式設計語言。
然後進入程式設計,程式員進行代碼撰寫,設計師進行GPU設計 。
測試:代碼的審查和實際運作兩步,涉及「代碼審查員」和「測試工程師」兩個角色。
文檔:環境說明和使用者手冊兩類,前者說明了智駕算法所依賴的環境,由CTO指導程式員完 成。而後者則由是CEO決定包含的内容,交由PRD進行生成。
這樣的架構特别适用于複雜的行業場景,尤其是汽車行業。
智能車好做,智能車企難做
的确,以如今中國制造業實力和供應鍊齊備水準,“攢”出一輛智能車沒什麼難的。比如小米用了3年時間,其實都不算快的。
但“智能”車企,卻是擺在新勢力求存和老車企轉型路上最難的挑戰。
因為軟體算法、硬體域控自研等等這些,錢花到位,團隊人才自然就到位。但怎麼把大模型變成生産力,整體營運流程提質增效,是目前車企最迫切的需求。
易慧智能向智能車參考透露,他們接觸的車企,無一例外對AI Agent在提高工作效率、優化成本、提升客戶體驗等方面的落地應用展現出興趣。
其實從前面幾個例子就能看出,車企頭疼的是精細化營運效果和可控的營運成本之間,憑借人為部署操作,很難摸索出一個最佳平衡點,無論是生産、采購、營銷等等環節。
從這一點來看,這份産學研聯合釋出的首份汽車行業大模型白皮書,最大的意義是嘗試用大模型的能力,解決汽車行業、制造業的實際問題。
并且提出了具體方式:通過大模型的通識能力和自然語言處理能力,讓過去一群各自獨立的數字員工高效交流協作。
而且還有具體模式架構:組織孿生,有流程有工具有方法論。
這也是汽車工業第一次認真把大模型作為生産工具對待,以終為始找解決方案,而非“奇技淫巧”的上車噱頭。
根據麥肯錫測算,到2030年,數字勞動力将形成價值1.73萬億元的市場,這其中自然包括汽車行業。
而汽車工業的經驗,又幾乎可以無損複制到一切大制造業。
大模型驅動的群體智能技術,是汽車工業AI轉型的“星星之火”,而它首創的模式和理念,又豈止于汽車。