天天看點

終于來了!類ChatGPT開源“鼻祖”,即将允許商業化

作者:AIGC開放社群

金融時報消息,Meta(Facebook、Instagram、WhatsApp等母公司)将很快釋出一款可商業化的類ChatGPT大語言模型,并為企業提供定制化、微調等服務。

據知情人士透露,Meta此舉是為了追趕微軟、谷歌、OpenAI的腳步,擴大開源生态影響力以搶奪市場佔有率、提升産品影響力。

早在今年2月份,Meta開源了4種參數的大語言模型LLaMA,算是類ChatGPT開源模型的“鼻祖”,幾乎國内外所有知名開源項目,例如,Alpaca、Guanaco、LuoTuo、Vicuna、Koala等都是基于或借鑒了該産品。但LLaMA一直有一個緻命缺點,無法商業化,隻能用于學術研究。

終于來了!類ChatGPT開源“鼻祖”,即将允許商業化

Meta副總裁兼首席AI科學家Yann LeCun,在上周六普羅旺斯艾克斯舉行的一次會議上表示,AI競争格局将在未來幾個月,甚至未來幾周内徹底改變。屆時将會出現與非開源平台,一樣好的開源項目。

這很可能是對新的可商業化開源大語言模型的暗示。

早前,All in元宇宙的Meta吃盡了苦頭,不僅虧了100多億美元股價連續遭遇重創,元宇宙的建設卻遙遙無期望不到頭。

由ChatGPT掀起的生成式AI風暴讓Meta看到了新的發展方向。今年2月,Meta率先開源了70億、130億、330億和650億參數的大語言模型LLaMA。(開源位址:https://github.com/facebookresearch/llama/)

終于來了!類ChatGPT開源“鼻祖”,即将允許商業化

LLaMA模型與ChatGPT同樣是基于Transformers模型演變而來。在資料訓練方面,LLaMA使用公開可用的資料集進行訓練,其中包括開放資料平台Common Crawl、英文文檔資料集C4、代碼平台GitHub、維基百科、論文預印本平台ArXiv等,總體标記資料總量大約在1.4萬億個Tokens左右。

Meta認為,在更多标記(單詞)上訓練的較小模型,更容易針對特定的潛在産品用例進行再訓練和微調。例如,LLaMA在1.4萬億個Tokens上訓練了330億和650億參數;在1萬億個Tokens上訓練了70億參數。

内容方面,LLaMA可生成文本、代碼等。為了擴大文本邊界,LLaMA使用了20多種語言文本進行訓練。LLaMA整體性能在開源界處于領先地位。

終于來了!類ChatGPT開源“鼻祖”,即将允許商業化

除了大量投資生成式AI技術,在場景化落地方面Meta同樣非常積極。廣告一直是Meta的核心收入來源之一。但在2021年 蘋果推出App Tracking Transparency功能後對Meta的廣告收入造成了嚴重影響,僅2022年便損失了100億美元。

根據埃森哲的預測,到2029年,30%的社交媒體廣告是由生成式AI自動生成,但是關鍵稽核流程仍然由人工完成。

是以,為了提升廣告客戶體驗,加快廣告制作效率和降低開發成本,Meta在今年5月釋出了AI Sandbox,幫助企業自動生成廣告。

目前,有數百萬企業在Meta旗下的社交平台投放廣告,Meta希望企業通過AI Sandbox

産品可以加速廣告制作流程并節省成本。AI Sandbox主要提供多文本生成、背景生成、圖檔裁剪三大功能。

終于來了!類ChatGPT開源“鼻祖”,即将允許商業化

多文本生成:可以自動成多個文本内容,突出廣告商文案的重點,可以針對特定閱聽人嘗試不同内容。

背景生成:根據文本輸入建立背景圖像,讓廣告商可以更快速地嘗試各種背景并豐富創意素材。

圖像裁剪:調整創意素材以适應多個平台的不同縱橫比,如 Stories 或 Reels,讓廣告商在重構創意素材上節省時間和資源。

Meta追趕生成式AI熱潮,預計未來會釋出更多的AI産品并将其應用在實際業務中。