大模型2.0時代的優化與突破

圖檔來源@視覺中國

文 | 貝克街探案官，作者 | 車行運

今年6月份，各大廠商紛紛更新自家的類ChatGPT産品。6月9日，訊飛推出星火認知大模型更新版；6月13日，360在釋出類ChatGPT産品之後，再次舉行360智腦大模型應用釋出會。

與2月左右釋出的大模型不同，近期各家公司釋出的更新版産品，更偏向應用層目的是更容易走向千家萬戶。

從目前釋出的情況來看，360智腦已初步具備跨模态⽣成能⼒，除了可以完成文字生成文字、表格、圖檔；圖檔生成文字、圖檔，以及視訊生成文本，文本剪視訊等基礎創作之外，還重新定義“數字人”，給使用者一種“有靈魂、有⼈設、有記憶”可定制的專屬“人工智能”。

目前360智腦與使用者距離最近的應用場景，是360現有的全家桶，周鴻祎在釋出會表示，“360智腦4.0”會接入360安全衛⼠、360浏覽器、360搜尋等，試圖重塑人機協作。

在釋出會上，周鴻祎更改了此前觀點，“我曾經說過，國産大模型與ChatGPT之間的差距是兩年，現在我想收回這句話。”随後補充最新觀點，認為目前國産大模型的水準與GPT3.5大打平，照此速度發展，追趕甚至超過GPT4将在轉瞬之間。

從釋出初始版本至正式釋出360智腦的四個月内，周鴻祎看到了會有如此巨大的轉變？

01 科技大廠圍獵大模型

在2023中關村論壇上釋出的《中國人工智能大模型地圖研究報告》顯示，目前，中國人工智能大模型正呈現蓬勃發展态勢。據不完全統計，截至目前，參數在10億規模以上的大模型全國已釋出了79個。

而科技大廠的大模型參數量較大：阿裡通義千問大模型參數在10萬億級以上、騰訊混元大模型和華為盤古大模型參數量均在萬億級以上、百度文心一言大模型參數量在2千億級以上、京東言犀大模型的參數量為千億級；垂直行業科技企業已經上線的參數量普遍在千億級以上；而科研院校大模型的參數量在千億級及以下。

從大模型的布局體系來看，科技大廠在算力層、平台層、模型層、應用層進行了四位一體的全面布局。百度、阿裡、華為三家均從晶片到應用進行自主研發的全面布局，如百度的“昆侖芯+飛槳平台+文心大模型+行業應用”、阿裡的“含光800晶片+M6-OFA底座+通義大模型+行業應用”、華為的“昇騰晶片+MindSpore架構+盤古大模型+行業應用”。

此外金山辦公5月31日還釋出了WPS AI，目前，WPSAI已接入金山辦公旗下辦公元件輕文檔、文字、表格、示範、PDF，未來将錨定AIGC、閱讀了解和問答、人機互動三個戰略方向發展，并接入金山辦公全線産品。

各家大廠迅速湧入這個賽道，主要是因為監管層迅速跟進出台措施規範行業發展，有頂層架構保駕護航，各家大廠自然可以放心投入研發，并推出産品。

自今年3月大模型批量上線以來，AI監管政策逐漸明晰，這也給行業應用指明了方向。

回顧整個行業發展曆程，4月11日，《生成式人工智能服務管理方法》征求意見稿釋出；5 月 30 日，信通院正在聯合編制“紙鸢”開放人工智能模型許可證，下一步将釋出《紙鸢開放人工智能模型許可證（征求意見稿）》。

随後，一線城市配合釋出了《北京市加快建設具有全球影響力的人工智能創新策源地實施方案（2023-2025 年）》；《深圳市加快推動人工智能高品質發展高水準應用行動方案（2023-2024 年）》。

在此背景下，周鴻祎認為國産大模型将會迅速縮小和ChatGPT的差距，似乎也好了解了。

03 360智腦有何不同

按照周鴻祎的規劃，360大模型将在持續更新大模型的基礎上，兼顧場景化、産品化、平⺠化、垂直化。

這種發展戰略下，360智腦可以實作對消費者（⽤戶個⼈AI助理）、中⼩微企業（SaaS化垂直應⽤）、企業/政府/城市（私有化部署⼤模型）、⾏業（⾏業垂直⼤模型）等四個主要應用場景的覆寫。

上述四種不同場景的應用，主要通過其他公司在360大模型API基礎上，結合不同行業需求推出特定産品。現階段，很多部門、企業内部擁有大量獨占性IP，如果将其統統放到一個公開大模型中，就會重制三星因GPT洩露晶片機密的事件，這就凸顯了專有類GPT産品的重要性。

想要更好滿足上述不同場景的需求，通用大模型需要在現有基礎上，完成從輸入文字輸出文字，到看懂圖像、視訊，并能産出圖像、視訊的轉變，相當于讓大模型具備了“耳朵”和“眼睛”，為建立“數字人”打下基礎。

傳統數字人隻需要按照既定腳本輸出，但在大模型時代，360的數字人可定制，是以⼈設、有記憶、有經曆，目前在360數字⼈⼴場平台中，已經有200多個⻆⾊，分為數字名⼈和數字員⼯兩個種類。360希望未來可以讓每個⼈都有自己的AI助理，并有機會在虛拟空間内，跨越時空，和古人交流。

在示範會上，周鴻祎問“諸葛亮”怎麼看今天成為鬼畜素材，數字人以諸葛亮的口吻回複：夫古今之命，乃實事所必然也。今之時勢，天下紛擾不已。吾雖已老，仍志在天下。今者年輕人以吾為鬼畜素材，吾欣然接受此變化。并祝願年輕朋友在未來的道路上勇往直前，開創更加美好的未來。

同時周鴻祎還強調，未來數字人的形态還會有⾃⼰的⽬标、規劃和分解的能⼒，進而可以調⽤各種垂直的模型完成任務。

不過這些功能其實都是在現有大模型應用基礎上的優化，并沒有開辟一個全新的領域。但實際上，當大模型取得突破後，最具創造性的應用場景是無人駕駛。

03 無人駕駛有機會駛入快車道

回顧無人駕駛領域，自從2016年開始，各大廠商都在布局這個領域，但是直到今年也沒有一家可以實作真正的無人駕駛。

目前一輛L2+級别的無人駕駛系統需要10+顆攝像頭；1-2顆雷射雷達；或3-5顆毫米波雷達提供的多元度資料，人工标注資料之後才能用于模型的訓練。在可識别影像的大模型出現之後，人工标注所需要的時間成本和物質支出将會驟然下降。

據2023年4月毫末智行DriveGPT釋出會顯示，目前要得到對諸如車道線、交通參與者、紅綠燈等資訊，行業人工标注的成本約每張圖為5元，毫末DriveGPT的成本為0.5元。我們認為科技公司大模型訓練成熟後，單張圖自動标注的邊際成本趨近于0，平均成本有望進一步下降。

據恺望資料産品項目副總裁張鵬在2023年2月的介紹，目前資料标注以人工标注為主，機器标注為輔，95%的資料标注還是以人工為主。大模型的介入，可以極大地提升這個行業的效率。以特斯拉為例，2021年人工标注團隊為1000多人，2022年該團隊裁員200餘人。

除此之外，大模型時代，第三方科技巨頭有望通過提供完善的工具鍊，幫助整車廠建構自己的自動駕駛算法和資料閉環系統，同時依靠大模型的資料生成能力縮小在資料領域的差距，自動駕駛的安卓時代有望來臨。

目前，大模型已經被用于賦能資料閉環、仿真、感覺算法、規控算法等領域。而巨頭如微軟、英偉達在大模型和自動駕駛争相布局，或将擦出新的火花。

此外大模型的出現也促進行業分工，避免“重複造輪子”，同時加速傳感器和晶片疊代，系統成本有望大幅下降。大模型開發者和自動駕駛産業鍊玩家有望全面受益。

以百度Apollo為例，其首先利用圖文資訊預訓練一個原始模型，利用算法将街景圖像資料進行物體識别并定位和分割，放入編碼器形成底庫，即基于街景建立一個圖檔和文字資訊對應的資料池。

其次可以通過文本、圖像等形式對特定的場景（如快遞車、輪椅、小孩等）進行搜尋和挖掘，對車端模型進行定制化的訓練，大幅提升存量資料的利用效果。

百度用半監督方法，充分利用2D和3D資料訓練一個感覺大模型。通過在多個環節對小模型進行蒸餾，提升小模型的性能，同時通過自動标注給小模型定制化的訓練，用來增強遠距離視覺3D感覺能力、提升多模态感覺模型的感覺效果。

另一家頭部玩家商湯科技也曾公開表示，可以用AIGC生成真實的交通場景以及困難樣本來訓練自動駕駛系統，以多模态資料作為大模型的輸入，提升系統對Cornercase場景的感覺能力上限。

同時自動駕駛多模态大模型可做到感覺決策一體化內建，在輸出端通過環境解碼器可對3D環境進行重建，實作環境可視化了解；行為解碼器可生成完整的路徑規劃；動機解碼器可用自然語言對推理過程進行描述，使自動駕駛系統變得更加安全可靠。

大模型實作上述功能後，未來無人駕駛門檻會越來越低，頭部廠商加速無人駕駛項目程序的同時，還可以讓更多新玩家加入這個領域，并開拓除道路導航外，需要道路規劃功能的賽道，比如進一步優化掃地機器人的路徑規劃。

現在看，在經曆二月至三月的大模型集中釋出期、四月至五月的産品研發期和政策方向逐漸明确後，六月已經進入AI大模型産品和應用有望迎來集中釋出期，這也直接導緻OpenAIAPI降價。

在可預期的未來，AI技術仍然在持續疊代，應用也在持續推進，同時越來越多科技大廠推出産品切入這個賽道，還将繼續助推行業景氣度上升，并給使用者帶來更貼合市場需求的類GPT産品，比如擁有龐大使用者群的騰訊6月19日也釋出了大模型領域的技術方案。

當這些從業企業一起卷的時候，行業發展進入快車道的同時，也意味着C端使用者将會很快就能用上這個産品，至于會為誰付款，就需要各家廠商自憑本事了。（本文首發钛媒體APP）