天天看點

騰訊混元文生圖大模型開源:Sora 同架構,更懂中文

作者:極客公園

又一家大模型開源了,這次是騰訊。

5月14日,騰訊旗下的混元文生圖大模型宣布對外開源,目前已在 Hugging Face 平台及 Github 上釋出,包含模型權重、推理代碼、模型算法等完整模型,可供企業與個人開發者免費商用。

随後在5月17日,騰訊集團副總裁蔣傑在在騰訊雲生成式AI産業應用峰會上表示,騰訊混元大模型通過持續疊代,目前整體性能已居國内第一梯隊,部分中文能力已追平GPT-4。

針對備受關注的生視訊能力,騰訊混元支援文生視訊、圖生視訊、圖文生視訊、視訊生視訊等多種視訊生成能力,已經支援 16s 視訊生成。在生3D層面,騰訊混元已布局文/圖生3D,單圖僅需30秒即可生成3D模型。

混元文生圖大模型是業内首個中文原生的DiT(Diffusion Models with transformer)架構文生圖開源模型,這也是Sora 和 Stable Diffusion 3 的同款架構和關鍵技術,是一種基于Transformer架構的擴散模型。混元文生圖大模型支援中英文雙語輸入及了解,參數量15億。

過去,視覺生成擴散模型主要基于 U-Net 架構,但随着參數量的提升,基于 Transformer 架構的擴散模型展現出了更好的擴充性,有助于進一步提升模型的生成品質及效率。騰訊混元是業界最早探索并應用大語言模型結合 DiT 結構的文生圖模型之一。

在DiT架構之上,騰訊混元團隊在算法層面優化了模型的長文本了解能力,能夠支援最多 256 字元的内容輸入,達到行業領先水準。同時,在算法層面創新實作了多輪生圖和對話能力,可實作在一張初始生成圖檔的基礎上,通過自然語言描述進行調整,進而達到更滿意的效果。

騰訊混元文生圖能力,已經廣泛被用于素材創作、商品合成、遊戲出圖等多項業務及場景中。今年初,騰訊廣告基于騰訊混元大模型,釋出了一站式 AI 廣告創意平台騰訊廣告妙思,可為廣告主提供文生圖、圖生圖、商品背景合成等多場景創意工具,有效提高了廣告生産及投放效率。

騰訊混元文生圖大模型開源:Sora 同架構,更懂中文

騰訊文生圖負責人蘆清林|圖檔來源:騰訊

混元文生圖大模型的釋出會後,騰訊文生圖負責人蘆清林等人接受了極客公園在内的多家媒體群訪,分享了騰訊文生圖的進展和對 DiT 架構開發過程中的心得體會,以及為何選擇将混元文生圖大模型開源。群訪内容整理如下:

為什麼開源?

問:為什麼在今年這個節點做開源?

蘆清林:現在做開源其實有兩個考慮,一方面我們從去年7月份開始做研發,那個時候其實大家都不知道有DiT這個東西,那個時候我們相對來說是在業界做得比較早的,也經過了比較長時間的打磨,是以現在是一個比較ok的階段,是以對我們自己來說我們是ready,我們是具備開源條件的。

第二我們為什麼選擇在此時此刻選擇開源,我們已經看到過去基于U-Net架構這套已經逐漸逐漸越來越少的人去用它,大家更多是在DiT這樣的結構上去建設。但是我們也看到很多的應用由于過去做了很多的工作,始終還保持在Stable Diffusion那個階段上,同時也因為沒有開源DiT,是以導緻他們沒有辦法切換到新一代的技術能力上來,是以一方面我們也ready了,第二方面,目前業界也是需要的,是以就幹了這個事。

曾經的AI小模型時代其實開不開源差别也沒有特别大,但現在有一個問題在于,如果業界不開放一些大體量的FounDaTion model,獨立的研究人員甚至一個大型的實驗室都是很難做出一個好的FounDaTion model,因為資料及其資源這些成本的問題,是以如果沒有人把這樣的FounDaTion model拿出來的話,未來一些很多的優化工作沒辦法進行。

問:現在開源和閉源的文生圖技術能力差距是在逐漸拉大還是逐漸縮小?

蘆清林:我覺得在我們開源之前是在逐漸拉大,但是希望通過我們的開源能把這個差距變小。

問:剛才聽您說要生成一個社群,把技術報告公開,但是沒有提到資料這塊,資料這塊會公開嗎?

蘆清林:對于訓練的資料來說,一方面它有很多業務層面自己的資料,是以我們對這個東西我們自己可以用,但是share這件事情我們自己說了不算,比如很多的業務資料,這個東西我們說不了不算,這個還會有很多法律相關的東西。

問:對大模型開源有哪些看法,或者現在做大模型開源還有哪些難題需要突破?

蘆清林:我覺得最重要的點首先得自己做得好,如果做得不好的話拿出來開源意義是不大的,把一個模型做得足夠好地讓大家能用起來,這一點很重要,也是必要的。

問:市面上有種說法是閉源的成本會更低效率更高,關于這一點怎麼看?另外現在開源文生圖後續會開放其他模型的嗎?

蘆清林:我們原來其實走的是閉源這條路線,包括去年都是把模型疊代,再把接口開放給大家用。但現在我們發現在開源社群能讓大家都參與進來,這件事情是非常好的,共建能讓這件事情能走得更快。

我們後續也會做一些開源的工作,包括後面的生文我們也在考慮如何能把它開源出來,但首先我們在考慮如何讓大家能在用得起來。

DiT會是多模态的答案嗎?

問:可以介紹一下混元這塊用DiT的時間線嗎?

張建偉:首先我們做DiT其實是從2023年6、7月份的時候開始做的,那個時候我們認為已經是一個比較早的時間,因為那個時候大家大部分還是基于Unet去做,我們為什麼去做DiT,因為它是基于transformer的一個生成模型,transformer我們有它本身的先驗感,我們知道現在包括ChatGPT在它們已經基于transformer把文生圖做得非常非常好了,并且基于transformer有一個非常強大的擴充能力,它的天花闆非常非常高,目前我們還不知道它的天花闆在哪兒。正是有了這樣的先驗,我們覺得文生圖做文生文的水準,我們覺得走transformer的路是勢在必行的,這也是我們為什麼堅定地往transformer去走。

騰訊混元文生圖大模型開源:Sora 同架構,更懂中文

混元采用DiT架構|圖檔來源:騰訊

問:在采用DiT架構之前,你們的模型參數量是更大的嗎?

李志宇:在采用DiT架構之前,我們的模型參數量經曆了逐漸增長的過程。最初,我們使用的Unet模型參數量大約在3億以下,但圖像品質并不理想。為了提升性能,我們逐漸增加了模型的參數量,從3億增加到十幾億,再到22億,最終達到30億。随着參數量的增加,模型的圖像品質有了顯著的提升。然而,當參數量超過30億後,我們發現計算量大幅增加,且性能提升開始遇到瓶頸。

為了突破這一瓶頸,我們開始嘗試DiT架構。在嘗試初期,我們采取了小步快跑的政策,從較小的參數量(7億到600兆或700兆)開始,并在充分驗證後逐漸增加參數量。目前,我們的模型參數量已經擴充到15億,這是一個我們認為相對樂觀的狀态。未來,我們還計劃将參數量進一步提升到50億甚至100億,以期望進一步提升模型的性能。

問:DiT技術加強之後,在文生圖這塊可能會有很多的改進,在文生視訊這個方向上技術進展會怎樣,如果想追上Sora的話,除了DiT技術,還需要再做什麼?

蘆清林:這也是為什麼我們今天想開源的一個初衷,我記得非常清楚大年初七的時候OpenAI把Sora放出去了,是因為他們有了一個很強的DiT模型,在視訊次元上做了更新。我們希望我們能夠把現在圖檔的DiT拿出來,讓業界想做視訊的這些同行讓他們可以快速地有這麼一個圖檔基礎擴充到視訊上去,其實這是非常明确的一個意圖,大家可以在上面省掉很多時間。目前視訊除了這個以外,還有很多比如對計算資源的訴求,視訊其實會比圖檔的次元更多一些,對計算資源要求更高,這也是目前比較大的困難。

問:DiT會是多模态版本的答案嗎,或者還有哪些潛在的部署,可能會把DiT給替代掉?

張建偉:剛才提到的問題是多模态的問題,首先我個人認為或者我們團隊認為transformer仍然是它必須要走的路,因為transformer它非常非常大的特點,它可以把所有的媒體資訊包括文本,包括圖像、視訊,全部把它們看作一個Token,這個Token可以了解為如果是一句話,它是一個字,如果是一張圖的話,它有可能是圖像裡的一個區塊,如果是視訊的話,可能還會增加一個時間次元,一個三維的trap,這樣的話我們可以把所有的媒體統一成一種表達模式,這樣可以最簡單的模式去訓練我們的多模态模型,是以我認為多模态也是要走transformer這條路的。

而DiT裡面還包括了擴散模型這部分,而擴散模型這部分我覺得未來有可能會被代替,有可能做得更先進,比如它會做得更快,同時品質也會更好。

蘆清林:我完全贊同,還有一個點,我覺得未來可能會變成一個自回歸的網絡結構,它可能會更簡單粗暴一點。

隻用看到一些前面的東西,下一個Token内容,不管是圖檔、視訊、文本甚至是音頻,理論上都可以通過這樣的方法去做,如果大家能全部統一到這裡,其實未來所有的模态統一就不是不可能的。

為什麼現在還不是這樣?目前包括算力還有一些資料的支撐可能還是不足的,還需要一定的技術發展,它的配套能力要足夠強大的時候,這種完整的範式可能才會做得足夠好。

問:視訊用DiT很好了解,那麼文生圖從Stable Diffusion改成DiT,它的價值在哪裡?如果DiT有更好的可擴充性,具體來說相較于Stable Diffusion有什麼不同?

蘆清林:你剛才說視訊用DiT其實是很好了解的,文生圖從Stable Diffusion改成DiT完全是同一個道理,當我想生成一個更高品質和更大圖檔的時候,用DiT因為它有更好的擴充性,它的能力是更強,天花闆更高,其實和視訊是一樣的,包括現在做視訊也都是這樣去做,甚至一些國外頭部的公司他們圖檔和視訊是一起做的,用一個模型輸出。

問:可以了解成它可以生成的圖檔品質更高?

蘆清林:不僅僅是這樣,它的語義表達能力會更強,因為它的參數量未來會做得很大,是以它可以容納的資訊量就會更多。

問:DiT模型是否更适合幾十億參數規模的訓練,并且如果參數量較小,是否會影響其在視訊處理方面的效果提升?

蘆清林:剛好反過來,它未來的擴充空間非常大,它的擴充能力很強,是以它的天花闆會更高,是以它做未來的圖檔和視訊都能夠有更好的表現。

問:一般認為參數量較小的模型消耗的算力較小,這種了解是否正确?另外,對于15億參數或更大規模的視訊大模型,是否更适合在PC上應用?

蘆清林:從兩個層面來解答這個問題:從參數量與算力消耗來看,将一個大參數量的模型減小參數量并不困難,可以通過犧牲一定的效果來實作更快的處理速度;從模型規模與應用場景來看,對于如何讓一個小規模的模型在擴充時仍能發揮良好作用,目前還在探索階段。而将大規模模型參數量減少以适應PC等平台的應用,相對而言是比較清晰的。

性能名額“最強”?

問:現在怎麼定義在性能名額上“最強”?

蘆清林:這個無非就是别人沒有的,我們有,别人有的,我們更好一些。從别人沒有這個點裡說,目前DiT裡沒有一個中文原生開源的,過去由于我們做了非常多的在中文了解和表達上包括數學方面的一些工作,是以讓模型在這方面有比較強的能力。這是第一個點,目前業界沒有,是以相對來說也比較好說。

第二點,怎麼去證明我們在其他的次元上更好。這個點我們會通過接近20多個次元去評估,這裡展示的隻是四個次元,包含語義的了解,能不能把一些細節的數量表達好,顔色表達好,空間位置表達好,這裡面有非常多的次元。是以我們從所有的綜合次元來評估,我們并沒有非常明确的短闆,以及我們在很多元度上面都會有一些優勢,以至于綜合評分我們會有比較高的一個能力。是以才會這麼說。

問:剛才看到那個評分上,目前技術的水準可能和最頂尖的模型還有一定的差距,後續通過什麼方式做加強,追趕?另外訓練資料上怎麼去疊代?

蘆清林:在中文和英文語料上其實中文有天然劣勢的,因為确實英文的語料非常非常豐富,以及品質更好,這塊我們一直在補充。從去年的資料大概在5-6億的圖文費,今年已經擴充到20億,未來我們會持續擴充。包括能把它篩選得更準确一些,讓把更高品質的篩選出來,這是資料方面的工作。

第二個是模型方面的工作,模型方面目前是 15 億的參數量,同時我們會嘗試參數量更大的模型,因為它耗費的計算資源和時間會更長,目前還沒有ready,但是已經在做。

騰訊混元文生圖大模型開源:Sora 同架構,更懂中文

混元DiT對中國元素了解具有優勢|圖檔來源:混元官網

問:中文語料主要是從哪兒來的?

蘆清林:我們這個地方也是費很大的力氣去做這些工作的,包括開源資料做清洗,開源資料是這樣做的,它的難點在于你能不能清洗好,以及标打好,這個是非常非常重的一些工作。包括我們内部也有很多有版權的素材,包括設計師這些都有,包括遊戲,其實都有很多工作。

問:騰訊對于AI生成的版權是怎麼看的?

蘆清林:無論是從法律層面來說,還是從更加規範的管理層面來說,我們全部都會去遵循。

問:前段時間和位元組聊,他們是先推出6-7個産品,然後發展一批種子使用者,然後會根據種子使用者的意見對産品進行調整,對算法進行優化,但是騰訊的思路好像是要更打磨技術,更打磨底層,這樣的思路其實是有差異的?

蘆清林:其實沒有什麼特别大的差異,因為騰訊裡面内部的業務場景是非常非常多的,從遊戲、廣告、社交、内容産品、雲所有的東西都有,幾乎外部能感受到的它都有,是以不管是在内部打磨還是外部打磨,對于基礎能力來說其實差别是不大的,因為我們需要的是使用者的一個回報,它是點踩還是點贊,這塊他覺得哪裡有問題,從我們的底層技術來說,這個回報到底是對外部的客戶來說,還是内部産品帶來的,其實對我們來說是一樣的。

如何發掘場景需求?

問:在遊戲、廣告、社交這些領域上有沒有遇到一些場景問題,以及如何發掘場景的需求?

蘆清林:這三個場景完全不一樣,截然不同,是以我們有專門的團隊針對每個場景進行深入研究和應用開發。

  1. 社交領域:在社交場景中,我們可能會采用智能體的形式,通過包裝成小型的互動玩法來促進社交傳播。舉例來說,可以利用圖像生成技術,如使用個人照片訓練生成新的寫真形象,這些更側重于智能體的互動性。
  2. 遊戲領域:遊戲制作流程複雜,從概念設計到最終的3D模型,涉及上百個步驟。對于視覺和圖像生成的需求各不相同,需要為每個步驟提供定制化的技術解決方案,以提高遊戲生産的效率。
  3. 廣告領域:廣告更注重效果,廣告主關注的是點選率和商品的轉化率,而非單純的美觀。在設計廣告素材時,需要緊密結合廣告效果資料,如點選率和轉化率,以生成更具吸引力和轉化潛力的圖檔。

問:文生圖算力消耗非常大,現在市面上的一些應用落地的情況,會不會覺得文生圖的商業化路徑會比較清晰一點?

蘆清林:它的應用點是比較多的,但是它的商業化應用比較清晰這個我沒有那麼贊同,目前我們沒有看到一個極強的AI原生的産品能有很好的商業化的表現,隻是大家目前都還在摸索,隻是說現在因為有很多的玩法這個我認可,有很多玩法已經出來了,有很多的小産品可以讓大家比較有意思玩起來,甚至比較火的一個狀态,但是這并不代表它有未來有很強的商業化能力,我們還在摸索階段。

問:去年騰訊文生圖已經在探索視訊生成,相比于語言和文生圖來說,視訊生成大模型成熟度是什麼樣的?

蘆清林:肯定不如這兩個,視訊它最大的一個點是如何生成質感非常好的視訊生産,目前一方面是生成的時間非常短,另外生成的視訊分辨率不足,以至于很多場景用不起來。還有一個特别大的問題就是,它計算資源消耗非常大,包括現在的Sora它如果想生成一個視訊要分鐘級才能生成出來,而且良品率也沒那麼高,這個是目前沒有廣泛應用的問題。

問:現在很多人說AI生圖有的一言假,生成圖可以細節做得很漂亮,但是全是細節,缺乏邏輯性,或者像人畫圖一樣會有一個上下文怎麼了解這個場景。在給AI提示詞的時候給的其實是元素,比如小橋、流水、人家這三個元素。從文字到圖檔這個算法其實沒有人所謂的邏輯或者上下文的,最後生圖怎麼彌補這個邏輯性,讓AI生的圖更有人味一點?

蘆清林:尤其在去年還沒有大模型的時候,基本上是一個暴力的生成,通過過去見到所有的文本和圖檔去腦部出目前的文本會生長成什麼樣子。

我們現在接入大語言模型,語言模型和圖像生成模型關聯以後,逐漸有自己的一些邏輯的思考,因為語言模型它的邏輯推理能力,包括COP、POT這些能力會逐漸逐漸這些能力強化到圖像生成裡面來,我們目前在這些方向上,而且已經看到一些方向,包括多輪對話,包括解釋一些畫面,包括還有我們如何輸入一個公衆号的文章,讓語言模型從這個公衆号文章裡面裡面去抽象一句畫圖的prompt出來,再拿這個圖檔去畫一幅圖,把這個圖配到文案裡面去,其實我們都已經做到了這些事情。包括寫故事,包括兒童繪本都可以做到。

問:不同模型,剛才提到大語言模型和文生圖模型的關聯,今天早上我們看到OpenAI發的新的模型也是在做整體的關聯,把更多多模态的模型在一起做關聯,有哪些技術挑戰?

蘆清林:它的關聯跟我們不一樣,他們是在輸入的時候把圖文視訊進行輸入,給到大語言模型,這是他們在做的事情。我們做的事情是大語言模型和不同模态的輸出關聯起來,這是不一樣的。

都需要做,但是今天放出來的是沒有完全多模态輸入多模态輸出,這是一個理想的情況,但是如果想做到這樣一個像我剛才說的大一統模型的話還需要接入,目前大家都是把前半段連起來多模态輸入,後半段多模态輸出。

問:現階段的技術難點是什麼?

蘆清林:現在最大的難點在于不同的模态之間是不對齊的。舉例就像我們曾經在想視訊和音頻能不能同時生成,其實這個東西是很合理的,但是我們發現視訊畫面跟音頻不是一一對應的,同一段視訊可以配上很多音,意味着他們沒有這樣一個一緻性,是以生成視訊和生成音頻如果想用一個模型輸出的話對我們來有很大的混淆,我們要解決對齊,這些模态其實很難對齊,這是最大的問題。

接下來的挑戰?

問:基于現在混元文生圖能力,未來的工作方向是什麼?

蘆清林:這個問題能從兩個次元回答,這兩個次元我們都會去做,一個是技術能力的提升和模型應用更廣泛,包括從技術能力提升來說,一方面如何能讓它生成的速度更快,生成的品質更好,這是我們永遠都會追求的一個技術方向,它似乎是沒有止境的。

第二個是騰訊的業務場景非常多,包括外部的,我們希望能在更廣泛的應用場景用起來。去年我們非常深入地跟廣告的場景做了一些協作,今年會跟社交包括QQ、企業微信很多業務場景做關聯,跟他們合作做一些新的技術能力。同時還跟騰訊遊戲做非常深的一些技術合作,也希望能在美術場景應用起來。除了這些以外當然還有QQ音樂等等都會是我們支撐的業務場景。

問:這次開源之後文生圖模型接下來發展主要面臨的挑戰是什麼?

蘆清林:可能會被說,我也不太确定我們會面臨什麼樣的挑戰,今天也提醒我們今天跟大家公布這個消息,心态也非常忐忑,它一定會有不完美的地方,一定會被人诟病,我們去改進,可能未知是一個比較大的挑戰。

問:另外文生圖模型未來商業化的政策主要路徑是什麼?現在行業内類似的文生圖應用比較火,騰訊有沒有計劃推出專門面向C端的AI應用?

蘆清林:這件事情其實并不是非常急迫的狀态,因為騰訊内部的業務場景非常豐富,我們如果能給他們帶來價值,能幫助他們就非常好。至于AI能作為一個獨立的産品,2C能商業化,其實我們目前還沒有非常明确的想法,我們也會去嘗試,不排斥。

頭圖來源:混元官網

繼續閱讀