天天看點

大模型預測,下一個token何必是文字?

作者:量子位

明敏 金磊 發自 凹非寺

量子位 | 公衆号 QbitAI

太快了太快了…

大模型的生成技能,已經到了普通人看不懂的境界!

它可以根據使用者過去5年的體檢報告,生成未來第1年、第2年、第3年的體檢報告。

你看,這個生成的過程,是不是像極了ChatGPT,根據曆史單詞預測下一個單詞。

大模型預測,下一個token何必是文字?

它能檢視過去7天機組子部件的運作情況,生成未來3天每小時的子部件報告 。

大模型預測,下一個token何必是文字?

還能基于曆史水文資料和未來7天氣象資料,生成未來第1天、第2天……至第7天的每小時降水分析報告,包括詳細降水量、降水分布。

大模型預測,下一個token何必是文字?

如今,大模型的生成内容,早已不隻是文字/圖像/視訊了。

如上生成的這些報告分析涉及諸多專業知識,普通人很難基于自己的知識儲備評價其合理性和正确性。

最多隻能評價一句:不明覺厲!

怎麼說呢?“AI似乎正在生成一切”。

LLM+行業資料,路走錯了?

簡單了解大模型,就是Predict the Next “X”。ChatGPT是Predict the Next “Word”。

但行業需要的往往不是預測下一個字。

比如對于慢性病患者的健康管理規劃,它需要基于一系列生理名額資料,從醫學角度進行資料預測。舉個不恰當的例子,這更像是用數學方法解題。

如果在大語言模型基礎上投喂大量專業的醫學語料,更像是用國文方法讀題。盡管能了解相關的術語和名額,可是給出的預測結果大機率不準确。因為問題本身超出了“語言”範疇,不能用國文方法求解。

如果“X“的模态從“文字Word”變成了“體檢報告”,模型則可以根據曆史體檢報告資料去預測下一個體檢報告,這才是一個健康管理大模型。

大模型預測,下一個token何必是文字?

它的邏輯更像是“種瓜得瓜、種豆得豆”。即輸入“X”、輸出“X”。

這裡的“X”可能包含水文資料、健康報告、裝置監測數值、設計推演等不同樣式的專業資料。

它能基于音樂廳的幾何模型和房間資料,從聲源發射5000Hz頻率射線,生成射線分布圖,找到聽覺最佳的音源擺放位置。

大模型預測,下一個token何必是文字?

如何預測“X”?

是以,這些能預測下一個X的行業大模型,如何建構出來?

通過剛剛釋出的先知AIOS 5.0。其核心特點是基于各行各業場景的X模态資料,建構行業基座大模型。

解決了目前行業大模型隻能将行業文本資料喂給大語言模型、生成下一個字的問題,讓大模型能來到的領域更加廣泛。

大模型預測,下一個token何必是文字?

先知是AI公司第四範式的核心産品。2015年,先知AIOS 1.0版本首次釋出,通過高維、實時、自學習架構提升模型精度;2017年,先知AIOS 2.0版本利用自動模組化工具HyperCycle,降低模型開發門檻;2020年釋出的先知AIOS 3.0版本規範AI資料治理和上線投産;2022年,先知AIOS 4.0版本引入北極星名額,更大化發揮AI應用價值。

AIOS 5.0版本則從生成式AI+行業這一角度出發,給行業大模型提出了一種新思路。

而在公認的大模型應用落地元年裡,行業大模型的發展和影響一定是此前的數倍。這種更具規模化的動向,由此也形成了AIGC趨勢的下一個範式。

One More Thing:AIGC邁向新範式?

從圖檔、文字、視訊,再到健康、水利……我們不難看出AIGC現在正以迅猛的速度朝着AI生成一切的方向飛奔。

通常來說,一切事物的發展似乎都需要一些範式來推動,而且不是新範式取代舊範式,而是它們之間互補使其更加深入和全面。

正如科學研究中的四種範式一般,即實驗歸納、理論推演、計算機仿真和資料密集型科學發現,它們互相補充,共同推動了科學研究的進步。

那麼若是以這種邏輯來看待AIGC,似乎類似的四種範式也已經開始出現。

AIGC的第一範式以文本生成為核心,通過智能客服、内容續寫等應用,展示了AI在了解和生成自然語言方面的能力。這一階段的AIGC技術,為後續的發展奠定了基礎,使得機器能夠與人類進行有效的交流和互動。

AIGC的第二範式将應用領域擴充到了圖像生成。

如生成對抗網絡(GAN)、變分自編碼器(VAE)等,可以學習從随機噪聲生成逼真圖像的映射。并能将輸出結果用于藝術創作、圖像增強、虛拟場景生成等領域。這一範式進一步展現了AI的想象力。

AIGC的第三範式則是聚焦在了視訊生成,例如Gen2,例如Sora。

視訊生成一定程度上反映了AI對于世界的了解。從Sora誕生以來,能否了解世界?是否是世界模拟器的說法一直争論不休。因為如果确定Sora可以了解世界,将意味着AGI大門正式開啟。

大模型預測,下一個token何必是文字?

而AIGC的第四範式,就是以行業為主,技術将全面滲透到各個行業之中。

這一階段的核心任務是将AI技術與行業知識深度融合。今年作為大模型應用落地的元年,我們看到AIGC技術開始在醫療、教育、金融等關鍵領域發揮重要作用。

具體怎麼做才能更快推進AIGC紮入行業?各路玩家都還在不斷嘗試中。以大語言模型為底座?還是直接訓練行業大模型?不同路線都有各自的底層邏輯,誰的路線更能跑通,還言之過早。

但可以确定的是——

在AI生成一切的程序中,那些能夠率先利用AI技術的個人和行業,将能夠更早地享受到技術帶來的紅利。他們将有機會引領行業變革,塑造未來的社會和經濟格局。

而且也隻有AIGC進入到了第四範式,才意味着完成了技術創新到商業創業的飛輪轉換,意味着生成式AI開啟新質生産力變革。

大模型預測,下一個token何必是文字?

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀