天天看點

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

夢晨 發自 凹非寺

量子位 | 公衆号 QbitAI

這是疫情之下的第三個元宵節了。

或許你已經結束假期回到工作的城市,又或許連續幾年沒能回家了。在防疫措施下,這個節日未免顯得冷清。

不過熱鬧并沒有消失,隻是轉移到了網絡上。

中國青年報聯合百度發起的#我們一起畫月亮#在微網誌火了,連冰墩墩設計團隊負責人曹雪都來體驗。

同屬奧運圈的國際奧委會成員小薩馬蘭奇、短道速滑運動員韓天宇也來參與。

還有演藝界的王一博、魏大勳、楊迪、孔雪兒、哈妮克孜,以及知名部落客Papi醬……

乍看以為是一個常見的H5刷屏,仔細一看,竟然是AI大模型的首次破圈,讓廣大普通使用者都體驗了一下AI創作藝術。

具體來說,隻需告訴AI想去哪裡看月亮,就能得到AI為你創作的一張元宵月景,另外配詩一首。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

比如小薩馬蘭奇想看他家鄉西班牙的月,AI就畫出一副南歐風景,畫風也是西式油畫。

到了韓天宇,他想看北京的月,AI畫風也切換得更像中式山水。

要注意這畫、這詩都是AI全新創作的,在網上不會有一模一樣的。

畫作中細節豐富的月亮也不是一般月亮,原型是“嫦娥一号”探月衛星拍攝資料制作成的中國第一張全月影像。

AI畫作中的月亮正是由這張全月影像圖變化而來,更具紀念意義。

如果輸入自己家鄉的名字,就可以看到AI對你那裡有什麼印象。

或者讓AI畫一份你目前所在地的月景,還可以填上收件人生成元宵賀卡分享給遠方的親人,用科技的方式體驗一把“千裡共婵娟”。

不按常理出牌的話,還可以來掃碼試試火星或冬奧會等非正常場景,考驗一下AI腦洞有多大。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

隻根據寥寥幾個字畫出一張細節豐富的繪畫作品,對人來說都非易事,對AI來說更是如此。

既要讓圖像與文字描述相符又要保證圖像本身的品質,尤其是使用者可以随意輸入文本的這種,很多情況AI都是第一次見,怎麼就知道要往上畫什麼呢?

AI如何決定畫什麼?

AI根據文字畫出圖像這種能力一般叫做跨模态生成。

模态,指的是文本、圖像、視訊等不同的資訊表現形式。

跨模态,則是把不同類型的資訊結合起來。比如圖像搭配上文本組成一對,讓AI去學習它們之間的關系。

簡單來說,AI會把文本以字或詞為機關拆開,編碼成向量組成的序列。圖像經過計算也可以編碼成向量序列。

接下來AI要學習兩件事:

第一,根據文本序列預測出圖像序列的内容。

第二,根據預測出的圖像序列再重建成圖像。

通過這個過程,AI可以了解到特定文本和圖像之間的對應關系。

基礎一些的,像顔色、形狀的文字描述及對應的圖像特征。

高階一點的,還可以是更綜合的概念,比如當文字中的埃及,AI就知道标志性景觀有金字塔。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

具體到這次元宵賞月活動,AI技術的提供方是百度,用到的是文心大模型。

大模型的“大”一方面在訓練資料量,跨模态能力上,百度用了1.45億組高品質中文圖文對做訓練。另一方面,跨模态部分的參數規模也有100億。

除了練得多、規模大,文心大模型的跨模态能力與同類AI模型相比還有一項創新之處。

首創的跨模态統一模組化,讓AI同時學習文本到圖像和圖像到文本兩個方向的任務,兩個子產品之間學到的參數共享。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

這樣做的好處,可以用人類學外語來了解。

相當于先練一遍中譯英,再倒過來練一遍英譯中,對詞彙、文法之間對應關系的了解就更深了。

其他的技術創新還有不少,比如端到端的訓練流程能同時加強編碼器和解碼器性能等,這裡不再一一詳述。

有了種種新技術加持,文心跨模态大模型在同類模型對比中取得了領先成績,特别是在零樣本任務大幅領先國内外。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

△FID越低代表生成圖像的資料分布越接近真實圖像

當然,畫好不好看不能光看資料品質,還得符合人類審美。

在人類評估中,文心跨模态大模型在圖像清晰度、紋理品質、與文本的相關性三個名額也取得領先。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

看分數名額不直覺的話,不如再看一些執行個體。

登入文心大模型官網,便能線上體驗它的跨模态生成能力。

根據同樣一段文字描述,文心跨模态大模型可以切換不同畫風。

把白話描述換成更抽象的古詩,AI也能準确了解并配上畫面。

AI詩詞作畫這項能力也在文心大模型官網上開放了體驗,位址可以在文末擷取。

倒過來,根據圖像也可以生成文本描述。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

△來自論文arxiv.org/abs/2112.15283

實際上,跨模态大模型隻是百度文心大模型中的一個組成部分。

目前,文心大模型系列除了跨模态,還包含NLP(自然語言了解)大模型、CV(計算機視覺)大模型,既有基礎通用的大模型,也包含面向醫療、金融等重點領域、重點任務的大模型,以及豐富的工具與開發平台。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

文心大模型整體上與其他家大模型相比有個核心特色——知識增強。

除了海量訓練資料外,文心大模型還從擁有5500億事實的百度知識圖譜中持續學習。

在知識的指導下,AI能夠更快地學習到海量資料中蘊含的規律,表現出來的也就更加智能,特别是在零樣本能力上領先于純大資料訓練出來的模型。

一方面能節省人工标注資料的昂貴成本,另一方面更是為本身就缺少足夠資料的場景帶來更大想象空間。

在AI内容生成(AIGC)方面,也很考驗大模型的零樣本能力。

究其原因,AI生成的内容是要直接呈現給消費者,或AI直接與人類互動,人就是最大的不确定性。

這次的元宵節AI作畫活動便是一個好例子,生成的畫作和詩詞廣受好評,經受住了網友們的考驗。

除了跨模态大模型外,文心NLP大模型也有出色的零樣本生成能力。

無需标注任何樣本,便可以根據使用者指定的體裁、情感、長度、主題、關鍵詞等屬性,生成不同類型的文本。

這一點也可以在文心大模型官網上動手體驗。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

文心大模型家族裡各個成員的了解和生成能力,逐漸可勝任文字、圖像、視訊在内的網際網路使用者消費的主要内容的規模化生産。

一個AI生成内容(AIGC)的新時代,即将開啟。

以文生圖隻是AIGC的冰山一角

如今網際網路上的每個人每天都在消費大量的内容。

從你正在閱讀的這篇文章,到微網誌,到直播、短視訊、遊戲,形式越來越多樣的内容都搶占使用者的時間和注意力。

微網誌靠降低使用者用文字表達自己的門檻而流行,短視訊讓更多普通人靠手機就能分享自己的生活而火爆。

不斷提升内容多樣性和互動性,持續降低制作門檻、提升内容生産效率是每種内容都在追求的發展方向。

于是,AI協助下的内容生産逐漸走向台面。

手機拍照用上各種AI對焦、修圖,各大網絡平台紛紛實裝文章一鍵轉視訊、AI自動朗讀文字等功能。

除了擺在台面上的數字消費類内容,廣義的生成式AI也在更多看不見的地方發揮着價值。

比如去年程式員們津津樂道的GitHub Copliot,AI通過了解程式設計語言與自然語言間的關系可以輔助人類程式員寫代碼、寫注釋。

文心大模型的文檔了解能力,在保險行業可以輔助業務員處理一份合同的時間縮短到1分鐘,業務效率提升30倍。

像文心大模型這樣的以文生圖能力,甚至可以用線上下實物産品的生産上。

比如AI輔助人類設計師做服裝設計和工業設計,節省大量重複勞動時間、降低生産成本。

創意設計,以前被認為是人類專屬的高難度領域,AI難以涉足。

AI在圖像上的能力很長時間以來局限于分類、識别、編輯修改這些任務。

但随着技術發展,AI已經開始滲透到藝術領域,能夠進行獨立的創意、生成畫作,比大家預想的速度要快得多。

有的AI畫作在拍賣行以天價成交,有的AI畫作被收錄進紐約現代藝術館。

這種形勢下,人工智能頂級會議NeurIPS連續幾年開設的“創意與設計工作坊”也辦得有聲有色。

但要說AIGC的集大成者,還要重點提一下最近火熱的數字人。

數字人經常要與人類交流互動,更加考驗AI在視覺、語音、文字等模态上全方位的能力。

與人類相比,數字人還有個優勢是不用休息。

火熱進行中的冰雪賽事上就有一位AI手語主播,24小時不間斷得為2780萬聽障人士提供手語服務。

冰墩墩設計師都在玩的AI創作,這次大模型出圈了!

百度APP代言人龔俊的數字人,可以作為語音搜尋助理出現在使用者手機裡,讓粉絲擁有面對面與偶像實時對話的溝通體驗,增加了明星的價值。

此外虛拟員工、虛拟客服等形式的數字人也都展現了各自的産業價值,走進互娛、金融、政務、零售等更多行業。

再說回到網際網路,下一代網際網路無論是叫元宇宙還是Web3.0,對内容的數量、形式和互動性都提出了更高的要求,面臨更大的數字内容供給缺口。

這些缺口正等着以AIGC為代表的技術去填補。

最後,如果你現在就想提前感受一下AIGC時代,今天就是個好機會。

繼續閱讀