終于來了！類ChatGPT開源“鼻祖”，即将允許商業化

金融時報消息，Meta（Facebook、Instagram、WhatsApp等母公司）将很快釋出一款可商業化的類ChatGPT大語言模型，并為企業提供定制化、微調等服務。

據知情人士透露，Meta此舉是為了追趕微軟、谷歌、OpenAI的腳步，擴大開源生态影響力以搶奪市場佔有率、提升産品影響力。

早在今年2月份，Meta開源了4種參數的大語言模型LLaMA，算是類ChatGPT開源模型的“鼻祖”，幾乎國内外所有知名開源項目，例如，Alpaca、Guanaco、LuoTuo、Vicuna、Koala等都是基于或借鑒了該産品。但LLaMA一直有一個緻命缺點，無法商業化，隻能用于學術研究。

Meta副總裁兼首席AI科學家Yann LeCun，在上周六普羅旺斯艾克斯舉行的一次會議上表示，AI競争格局将在未來幾個月，甚至未來幾周内徹底改變。屆時将會出現與非開源平台，一樣好的開源項目。

這很可能是對新的可商業化開源大語言模型的暗示。

早前，All in元宇宙的Meta吃盡了苦頭，不僅虧了100多億美元股價連續遭遇重創，元宇宙的建設卻遙遙無期望不到頭。

由ChatGPT掀起的生成式AI風暴讓Meta看到了新的發展方向。今年2月，Meta率先開源了70億、130億、330億和650億參數的大語言模型LLaMA。（開源位址：https://github.com/facebookresearch/llama/）

LLaMA模型與ChatGPT同樣是基于Transformers模型演變而來。在資料訓練方面，LLaMA使用公開可用的資料集進行訓練，其中包括開放資料平台Common Crawl、英文文檔資料集C4、代碼平台GitHub、維基百科、論文預印本平台ArXiv等，總體标記資料總量大約在1.4萬億個Tokens左右。

Meta認為，在更多标記（單詞）上訓練的較小模型，更容易針對特定的潛在産品用例進行再訓練和微調。例如，LLaMA在1.4萬億個Tokens上訓練了330億和650億參數；在1萬億個Tokens上訓練了70億參數。

内容方面，LLaMA可生成文本、代碼等。為了擴大文本邊界，LLaMA使用了20多種語言文本進行訓練。LLaMA整體性能在開源界處于領先地位。

除了大量投資生成式AI技術，在場景化落地方面Meta同樣非常積極。廣告一直是Meta的核心收入來源之一。但在2021年蘋果推出App Tracking Transparency功能後對Meta的廣告收入造成了嚴重影響，僅2022年便損失了100億美元。

根據埃森哲的預測，到2029年，30%的社交媒體廣告是由生成式AI自動生成，但是關鍵稽核流程仍然由人工完成。

是以，為了提升廣告客戶體驗，加快廣告制作效率和降低開發成本，Meta在今年5月釋出了AI Sandbox，幫助企業自動生成廣告。

目前，有數百萬企業在Meta旗下的社交平台投放廣告，Meta希望企業通過AI Sandbox

産品可以加速廣告制作流程并節省成本。AI Sandbox主要提供多文本生成、背景生成、圖檔裁剪三大功能。

多文本生成：可以自動成多個文本内容，突出廣告商文案的重點，可以針對特定閱聽人嘗試不同内容。

背景生成：根據文本輸入建立背景圖像，讓廣告商可以更快速地嘗試各種背景并豐富創意素材。

圖像裁剪：調整創意素材以适應多個平台的不同縱橫比，如 Stories 或 Reels，讓廣告商在重構創意素材上節省時間和資源。

Meta追趕生成式AI熱潮，預計未來會釋出更多的AI産品并将其應用在實際業務中。