天天看點

火山引擎丢出視訊大模型「王炸」,雲廠商從「價格戰」回歸「卷性能」

自今年 2 月 Sora 面世以來,很多人都期待位元組的動作。擁有抖音和剪映這兩個最強的視訊 App 在手,位元組的視訊生成大模型,被寄予厚望。

這就來了。

9 月 24 日,位元組跳動旗下火山引擎在深圳舉辦 AI 創新巡展,一舉釋出了包括「豆包視訊生成大模型」「音樂生成大模型」在内的多款模型。

在此之前,海内外不少現象級的同類模型産品相繼釋出,包括位元組跳動相繼釋出的即夢、海綿音樂,和剪映(含 CapCut)中的新功能。秘而不宣的海綿音樂 App 更是被視為最适合中文的音樂生成 App、國内當之無愧的「Suno」。

位元組為什麼選擇在多少有些「AI 産品看麻了」的 9 月,推出這幾款 AI App 背後的大模型引擎?

對此,火山引擎總裁譚待向極客公園表示,不是按照某個固定計劃精心設計什麼節點釋出,AI 模型進展日新月異,什麼時候做好、适合對外就盡快釋出。

這背後的邏輯是,火山引擎的定位是位元組跳動的 ToB 雲平台,模型對企業的開放由火山引擎來做,但推出産品前,需要先在内部使用,打磨到一定程度、做到企業級可用,才會向外推出。此前釋出的豆包也是如此,先有位元組内部推出的産品豆包 App,再有今年 5 月由火山引擎推出企業級可用的豆包大模型。

他補充說:「不一定要搶第一,要推出成熟的産品,因為模型對未來 10 - 20 年影響長遠,做好積累後發先至也是好事。」

而火山引擎未來十年要駛向的遠方,并不是一個、兩個模型比如視訊生成模型的領先,而是「成為全球領先的雲和 AI 服務商」。

01 抖音和剪映加持,位元組視訊生成大模型更關注使用場景

視訊生成大模型,成為整場釋出會最大的亮點。

譚待表示,「因為視訊特别難,我們一次性推出兩個,充分解決視訊裡面的各種問題」。豆包家族新成員——豆包視訊生成-PixelDance、豆包視訊生成-Seaweed,正式面向企業市場開啟邀測。

從現場展示來看,豆包視訊模型可以根據文字和圖檔的輸入,生成相應的視訊。值得注意的是,位元組跳動并沒有公布其模型生成視訊的最大時長,盡管後者被認為是展現技術能力的一大表現。

豆包視訊生成大模型,更強調其在實際應用中、各種生活和商業場景所需的三個核心功能點。

首先是模型對複雜指令的了解遵循。以下圖的視訊為例,輸入「特寫⼀個⼥⼈的面部,有些⽣⽓,戴上了⼀副墨鏡;這時⼀個男⼈從畫⾯右側⾛進來抱住了她」。

火山引擎丢出視訊大模型「王炸」,雲廠商從「價格戰」回歸「卷性能」

在這個相對複雜的描述下,豆包模型生成的視訊呈現出了一個人情緒的變化、動作前後時間的變化,還出現了一個新的人物,這個新的人物跟原來的人物也有互動。換言之,豆包視訊大模型能夠根據指令實作時序性上有連續的動作指令,并且可以生成多個主體,并且讓多個主體間進行互動。

豆包視訊模型的第二個特點在于運鏡,⾖包視訊模型讓視訊在主體的⼤動态與鏡頭中進行切換,擁有變焦、環繞、平搖、縮放、⽬标跟随等多鏡頭語⾔的實作。

火山引擎丢出視訊大模型「王炸」,雲廠商從「價格戰」回歸「卷性能」

生成的視訊可以靈活控制視⻆,更接近真實世界的體驗|視訊來源:位元組跳動

第三個特點則是⼀緻性多鏡頭。在 AI 生成的視訊中,如何保證多鏡頭來回切時,不同主體在來回切換中的鏡頭是一緻的,這也是目前行業的共性難點。

火山引擎丢出視訊大模型「王炸」,雲廠商從「價格戰」回歸「卷性能」

豆包在一個 prompt 下生成的視訊,可以實作多個鏡頭切換,同時保持主體、⻛格、氛圍的⼀緻性。|來源:位元組跳動

在談及豆包視訊生成大模型的特點時,譚待表示,豆包視訊大模型背後有兩方面優勢,一是技術突破和全棧能力等優勢,在技術上,位元組在這兩款視訊模型上做了大量技術創新,比如通過⾼效的 DiT 融合計算單元、全新設計的擴散模型訓練⽅法和深度優化後的 Transformer 結構,讓整個⽣成視訊的動作更靈動、鏡頭更多樣、細節更豐滿。

同時抖音、剪映對視訊的了解也是優勢。「剪映對視訊的了解、對豆包視訊生成模型有幫助,指令遵循做得好也離不開語言模型,豆包是全體系模型,底層有基座模型有助于更好地了解指令。」

在深入到視訊場景的解決方案上,豆包視訊模型支援不同題材類型,⽀持包括⿊⽩、3d 動畫、2d 動畫、國畫、⽔彩、⽔粉等多種⻛格,包含支援 1:1,3:4,4:3,16:9,9:16,21:9 等多個比例,對應于電影、電視、電腦、手機等多個商業場景。

火山引擎丢出視訊大模型「王炸」,雲廠商從「價格戰」回歸「卷性能」

⾖包視訊⽣成模型通過整個模型能把商品快速 3D,而且動态多⻆度展⽰,還能配合不同的節日,比如中秋、七夕、春節等節點快速替換背景和⻛格,⽣成不同尺⼨的内容釋出到不同平台上,最終适合整體營銷的戰略完成。

在更聚焦的場景上,豆包視訊模型也推出了更适配的解決方案,⽐如電商營銷場景,可以讓使用者根據商品生成大量的配合營銷節點的視訊素材,并且适配不同媒體平台的不同尺⼨釋出。

在視訊釋出環節,還有一個彩蛋,火山引擎帶來了内部——剪映和即夢如何使用視訊⽣成模型的實踐案例。從抖音轉戰剪映 CapCut 的張楠(Kelly)通過數字分身 Kelly 的形式亮相。

火山引擎丢出視訊大模型「王炸」,雲廠商從「價格戰」回歸「卷性能」

在該數字人視訊中,Kelly 數字分身的動作像真人一樣自然,口型也可以與各國的不同語言完全适配。

這個案例也向外界展示了豆包視訊大模型在場景上帶來的新可能,比如自媒體、口播、營銷、帶貨、企業教育訓練等,不必親自上陣進行拍攝,内容制作成本也可以大幅降低。

據悉,豆包視訊模型不是期貨,最新模型會在國慶節後上線到火山引擎方舟平台,即夢最新内測版已經使用了豆包視訊生成模型-Seawe。

至于定價問題,譚待表示還沒确定。他稱「視訊模型和語言模型應用場景不同,定價邏輯也不同。要考慮新體驗 - 老體驗 - 遷移成本,最終能否廣泛應用取決于是否比以前生産力 ROI 提升很多。」

02 從「卷」價格,回到「卷」性能

與視訊大模型一同釋出的,還有音樂大模型、同聲傳譯大模型,和豆包主力模型的新更新。就像豆包視訊模型的效果讓人眼前一亮,上述模型産品也均有亮眼的性能提升。

這一系列新更新也反應了,火山引擎開始從「卷價格」到「卷性能」的轉變,後者将會成為其下一階段的戰略重點。會後接受采訪時,火山引擎總裁譚待重申了這一立場,他表示:「大模型的應用成本已經得到很好解決。大模型要從卷價格走向卷性能、卷更好的模型能力和服務」。

早在今年 5 月,火山引擎推出的豆包大模型把價格降至最低每千 token 低于一厘錢,引發了大模型廠商的價格戰。從那以來,模型廠商的整體模型調用量均出現了大幅提升。

據火山引擎披露,截至 9 月,豆包語言模型的日均 tokens 使用量超過 1.3 萬億,相比 5 月首次釋出時增長超十倍,多模态資料處理量也分别達到每天 5000 萬張圖檔和 85 萬小時語音。

盡管如此,模型性能掣肘成為了模型調用量進一步提升的瓶頸,同時也是機會。譚待舉例稱,業内多家大模型目前最高僅支援 300K 甚至 100K 的 TPM(每分鐘 token 數),難以承載企業生産環境流量。例如某科研機構的文獻翻譯場景,TPM 峰值為 360K,某汽車智能座艙的 TPM 峰值為 420K,某 AI 教育公司的 TPM 峰值更是達到 630K。為此,豆包大模型預設支援 800K 的初始 TPM,超行業平均水準,客戶還可根據需求靈活擴容。

此前 MiniMax 創始人闫俊傑向極客公園表示,從技術發展的角度看,模型推理成本 10 倍、百倍的降低是必然,隻是時間問題,難的是通用模型的性能提升。

在看到從 ChatGPT 到 GPT-4,性能出現了大幅提升時,大模型領域也沿着 OpenAI 在模型預訓練上做 Scaling Law,旨在用更多的資料、加更多的算力、提升模型參數量的做法來提升模型性能。随着這一路徑的效率降低、優質資料耗盡的擔憂,通過這一方法提升性能的路徑陷入瓶頸。

現在,随着 o1 的出現,大模型在推理階段引入強化學習的路徑,帶來了進一步提升模型性能的明确路徑。

同時,随着更多企業在 AI 應用上的探索,也為模型性能的定向提升帶來了很多工程調優手段。更好的模型性能、更好用的模型服務,才能在産品上打開更多場景,而這也将成為包括火山引擎在内的 AI 基礎設施服務商們下一階段的重點。

繼續閱讀