天天看點

獲紅杉、今日資本等投資 Moonshot AI的大模型“長文本”征途

作者:王琦 785

作為中國版OpenAI的強有力競争者,楊植麟創辦的Moonshot AI近日在北京正式公開亮相。

同為清華系大模型創業者,楊植麟的公衆知名度雖然比不上王小川、王慧文等在科技領域富有影響力的大咖,其在AI界早已是赫赫有名。據了解,楊植麟清華求學時期,師從清華大學計算機系知識工程實驗室(KEG)帶頭人,智源研究院學術副院長、悟道項目負責人唐傑教授。最終,他以滿分成績通過所有程式設計課程,并以年級第一的成績畢業。

2015年,楊植麟進入美國卡内基梅隆大學(CMU)語言技術研究所(LTI),跟随蘋果公司AI負責人Ruslan Salakhutdinov和Google AI智能首席科學家William W. Cohen攻讀博士位。

楊植麟先後以一作身份,發表 Transformer-XL 和 XLNet 兩項工作,谷歌學術被引次數近兩萬。其在過去五年内的NLP領域華人學者引用排名中位居前10,并在40歲以下排名第一。

正如楊植麟在此次媒體溝通會上所說,“我們最主要的特色是高人才密度”。在Moonshot AI大概50人的公司團隊中,除了學術背景深厚的楊植麟,還有許多成員都有訓練超大模型的經驗。其創始團隊核心成員參與了 Google Gemini、Google Bard、盤古NLP、悟道等多個大模型的研發,多項核心技術被Google PaLM、Meta LLaMa、Stable Diffusion等主流産品采用。

而除了擁有大量技術人才,Moonshot AI也吸納了不少産品人才,這些成員中有人具備從0到1 的産品經驗,有人營運過幾億DUA的産品。“我們希望把技術和産品結合,在C端讓大模型落地産生更大的價值。”楊植麟說。

楊植麟帶領的Moonshot AI也迅速獲得投資機構的認可,公司自今年3月成立以來,已獲得來自紅杉資本、今日資本、砺思資本等投資機構近20億元的投資。

同時,公司在成立半年後,已經在“長文本”領域實作突破。公司在10月9日正式推出首個支援輸入20萬漢字的智能助手産品Kimi Chat,這是目前全球市場上能夠産品化使用的大模型服務中,所能支援的最長上下文輸入長度。

獲紅杉、今日資本等投資 Moonshot AI的大模型“長文本”征途

圖檔來源:視覺中國

直面核心技術挑戰,打造長文本大模型

今年以來,ChatGPT的火爆出圈正引領新一波的AI浪潮。各大科技巨頭、初創公司紛紛加入這場AI大模型軍備賽,熱鬧程度堪稱“百模大戰”。

但需要注意的是,目前大模型輸入長度普遍較低的現狀,對其技術落地産生了極大制約。比如在使用大模型作為工作助理完成任務的過程中,幾乎每個深度使用者都遇到過輸入長度超出限制的情況。尤其是律師、分析師、咨詢師等職業的使用者,由于常常需要分析處理較長的文本内容,使用大模型時受挫的情況發生頻率極高;對于大模型開發者來說,輸入長度的限制限制了大模型應用的場景和能力的發揮。

擁有超長上下文輸入後的大模型,讓這些問題迎刃而解,進而使得大模型的應用可以覆寫更多使用場景。比如通過多篇财報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網頁的關鍵資訊、基于長篇小說設定進行角色扮演等等,都可以在超長文本技術的加持下,成為人們工作和生活的一部分。

值得注意的是,長文本技術的開發,存在一些對效果損害很大的“捷徑”。比如“金魚”模型,特點是容易“健忘”。通過滑動視窗等方式主動抛棄上文,隻保留對最新輸入的注意力機制。模型無法對全文進行完整了解,無法處理跨文檔的比較和長文本的綜合了解。

“蜜蜂”模型,特點是隻關注局部,忽略整體。通過對上下文的降采樣或者RAG(檢索增強的生成),隻保留對部分輸入的注意力機制,模型同樣無法對全文進行完整了解。“蝌蚪”模型,特點是模型能力尚未發育完整。通過減少參數量來提升上下文長度,這種方法會降低模型本身的能力,雖然能支援更長上下文,但是大量任務無法勝任。

“不管是‘金魚’模型、‘蜜蜂’模型,還是‘蝌蚪’模型,都沒有辦法真正達到産品化的效果。隻有真正去面對核心技術挑戰、正面解決問題,才有可能真正達到産品化的效果。是以我們做了非常多算法和工程的優化,在存儲、算力、帶寬等各方面,去實作真正可用、可産品化的長文本大模型。”楊植麟說。

基于此,Moonshot AI推出智能助手産品Kimi Chat。相比目前市面上以英文為基礎訓練的大模型服務,Kimi Chat具備較強的多語言能力。例如,Kimi Chat在中文上具備顯著優勢,實際使用效果能夠支援約20萬漢字的上下文,2.5倍于Anthropic公司的Claude-100k(實測約8萬字),8倍于OpenAI公司的GPT-4-32k(實測約2.5萬字)。

“當然,更長的上下文長度隻是Moonshot AI在下一代大模型技術上邁出的第一步,未來團隊将持續加速大模型技術的創新和應用落地。”楊植麟說。

清華系大模型同台競技,笃定2C陣營會有Super APP出現

雖成立隻有半年時間,Moonshot AI已經獲得來自紅杉資本、今日資本、砺思資本等投資機構的追捧。

“眼下,美國矽谷的OpenAI和Anthropic等公司獲得了多方關注,實際上在國内,擁有足夠多技術儲備的Moonshot AI也正成長為全球領先的AGI初創公司。”作為Moonshot AI首輪融資的三家投資機構之一,砺思資本創始合夥人曹曦說。

在曹曦看來,多模态大模型是各家AI廠商競争的關鍵領域,其中長文本輸入技術更是其核心技術之一,Moonshot AI團隊最新釋出的大模型和Kimi Chat在這方面實作了重要突破,并已應用于多個實際場景。

毋庸置疑,AI天才楊植麟是清華系大模型創業者中的閃耀新星。事實上,清華系創業者已經撐起大模型創業的半壁江山。百川智能、生數科技、面壁智能、深言科技、智譜AI、一流科技等大模型創業公司,均擁有清華背景的創始團隊。

在這場清華系創業公司的同台競技中,楊植麟坦言,這更多的是大家共同在大模型領域産生貢獻。這裡面的空間非常大,很難有一家公司就可以把所有的事情都做了。大家的側重點各有不同,有些專注C端有些專注B端,技術路線也會有所不同,每個人都能夠産生獨一無二的價值。

“我們會堅定站在2C陣營發展,在這個陣營中,一定會有Super APP出現。”楊植麟說,“這些Super APP會基于自研模型做出來,因為你需要在使用者體驗上能夠有差異化。但同時我們會覺得可能出現很長尾的各種各樣應用,有可能是基于開源模型去做,然後發揮資料或者場景産品化的優勢。”

面對有更多生态資源和資金優勢的大廠,Moonshot AI在2C陣營中的競争優勢如何展現?“我認為通過AI native的産品,會有很多新的流量入口出現。比如美國現在有很多新的流量入口,沒有一個是大廠做出來的。如果瞄準新的流量入口,肯定是有創業公司的機會的。”楊植麟告訴21世紀經濟報道。

比如以前沒有Midjourney這樣的産品,它就是新的流量入口,因為以前做不了這樣的需求。再比如可互動的直播等,會有很多新的想象空間、新的APP出現,是以創業公司肯定是有機會的。

更多内容請下載下傳21财經APP

繼續閱讀