火山引擎丢出視訊大模型「王炸」，雲廠商從「價格戰」回歸「卷性能」

自今年 2 月 Sora 面世以來，很多人都期待位元組的動作。擁有抖音和剪映這兩個最強的視訊 App 在手，位元組的視訊生成大模型，被寄予厚望。

這就來了。

9 月 24 日，位元組跳動旗下火山引擎在深圳舉辦 AI 創新巡展，一舉釋出了包括「豆包視訊生成大模型」「音樂生成大模型」在内的多款模型。

在此之前，海内外不少現象級的同類模型産品相繼釋出，包括位元組跳動相繼釋出的即夢、海綿音樂，和剪映（含 CapCut）中的新功能。秘而不宣的海綿音樂 App 更是被視為最适合中文的音樂生成 App、國内當之無愧的「Suno」。

位元組為什麼選擇在多少有些「AI 産品看麻了」的 9 月，推出這幾款 AI App 背後的大模型引擎？

對此，火山引擎總裁譚待向極客公園表示，不是按照某個固定計劃精心設計什麼節點釋出，AI 模型進展日新月異，什麼時候做好、适合對外就盡快釋出。

這背後的邏輯是，火山引擎的定位是位元組跳動的 ToB 雲平台，模型對企業的開放由火山引擎來做，但推出産品前，需要先在内部使用，打磨到一定程度、做到企業級可用，才會向外推出。此前釋出的豆包也是如此，先有位元組内部推出的産品豆包 App，再有今年 5 月由火山引擎推出企業級可用的豆包大模型。

他補充說：「不一定要搶第一，要推出成熟的産品，因為模型對未來 10 - 20 年影響長遠，做好積累後發先至也是好事。」

而火山引擎未來十年要駛向的遠方，并不是一個、兩個模型比如視訊生成模型的領先，而是「成為全球領先的雲和 AI 服務商」。

01 抖音和剪映加持，位元組視訊生成大模型更關注使用場景

視訊生成大模型，成為整場釋出會最大的亮點。

譚待表示，「因為視訊特别難，我們一次性推出兩個，充分解決視訊裡面的各種問題」。豆包家族新成員——豆包視訊生成-PixelDance、豆包視訊生成-Seaweed，正式面向企業市場開啟邀測。

從現場展示來看，豆包視訊模型可以根據文字和圖檔的輸入，生成相應的視訊。值得注意的是，位元組跳動并沒有公布其模型生成視訊的最大時長，盡管後者被認為是展現技術能力的一大表現。

豆包視訊生成大模型，更強調其在實際應用中、各種生活和商業場景所需的三個核心功能點。

首先是模型對複雜指令的了解遵循。以下圖的視訊為例，輸入「特寫⼀個⼥⼈的面部，有些⽣⽓，戴上了⼀副墨鏡；這時⼀個男⼈從畫⾯右側⾛進來抱住了她」。

在這個相對複雜的描述下，豆包模型生成的視訊呈現出了一個人情緒的變化、動作前後時間的變化，還出現了一個新的人物，這個新的人物跟原來的人物也有互動。換言之，豆包視訊大模型能夠根據指令實作時序性上有連續的動作指令，并且可以生成多個主體，并且讓多個主體間進行互動。

豆包視訊模型的第二個特點在于運鏡，⾖包視訊模型讓視訊在主體的⼤動态與鏡頭中進行切換，擁有變焦、環繞、平搖、縮放、⽬标跟随等多鏡頭語⾔的實作。

生成的視訊可以靈活控制視⻆，更接近真實世界的體驗｜視訊來源：位元組跳動

第三個特點則是⼀緻性多鏡頭。在 AI 生成的視訊中，如何保證多鏡頭來回切時，不同主體在來回切換中的鏡頭是一緻的，這也是目前行業的共性難點。

豆包在一個 prompt 下生成的視訊，可以實作多個鏡頭切換，同時保持主體、⻛格、氛圍的⼀緻性。｜來源：位元組跳動

在談及豆包視訊生成大模型的特點時，譚待表示，豆包視訊大模型背後有兩方面優勢，一是技術突破和全棧能力等優勢，在技術上，位元組在這兩款視訊模型上做了大量技術創新，比如通過⾼效的 DiT 融合計算單元、全新設計的擴散模型訓練⽅法和深度優化後的 Transformer 結構，讓整個⽣成視訊的動作更靈動、鏡頭更多樣、細節更豐滿。

同時抖音、剪映對視訊的了解也是優勢。「剪映對視訊的了解、對豆包視訊生成模型有幫助，指令遵循做得好也離不開語言模型，豆包是全體系模型，底層有基座模型有助于更好地了解指令。」

在深入到視訊場景的解決方案上，豆包視訊模型支援不同題材類型，⽀持包括⿊⽩、3d 動畫、2d 動畫、國畫、⽔彩、⽔粉等多種⻛格，包含支援 1:1，3:4，4:3，16:9，9:16，21:9 等多個比例，對應于電影、電視、電腦、手機等多個商業場景。

⾖包視訊⽣成模型通過整個模型能把商品快速 3D，而且動态多⻆度展⽰，還能配合不同的節日，比如中秋、七夕、春節等節點快速替換背景和⻛格，⽣成不同尺⼨的内容釋出到不同平台上，最終适合整體營銷的戰略完成。

在更聚焦的場景上，豆包視訊模型也推出了更适配的解決方案，⽐如電商營銷場景，可以讓使用者根據商品生成大量的配合營銷節點的視訊素材，并且适配不同媒體平台的不同尺⼨釋出。

在視訊釋出環節，還有一個彩蛋，火山引擎帶來了内部——剪映和即夢如何使用視訊⽣成模型的實踐案例。從抖音轉戰剪映 CapCut 的張楠（Kelly）通過數字分身 Kelly 的形式亮相。

在該數字人視訊中，Kelly 數字分身的動作像真人一樣自然，口型也可以與各國的不同語言完全适配。

這個案例也向外界展示了豆包視訊大模型在場景上帶來的新可能，比如自媒體、口播、營銷、帶貨、企業教育訓練等，不必親自上陣進行拍攝，内容制作成本也可以大幅降低。

據悉，豆包視訊模型不是期貨，最新模型會在國慶節後上線到火山引擎方舟平台，即夢最新内測版已經使用了豆包視訊生成模型-Seawe。

至于定價問題，譚待表示還沒确定。他稱「視訊模型和語言模型應用場景不同，定價邏輯也不同。要考慮新體驗 - 老體驗 - 遷移成本，最終能否廣泛應用取決于是否比以前生産力 ROI 提升很多。」

02 從「卷」價格，回到「卷」性能

與視訊大模型一同釋出的，還有音樂大模型、同聲傳譯大模型，和豆包主力模型的新更新。就像豆包視訊模型的效果讓人眼前一亮，上述模型産品也均有亮眼的性能提升。

這一系列新更新也反應了，火山引擎開始從「卷價格」到「卷性能」的轉變，後者将會成為其下一階段的戰略重點。會後接受采訪時，火山引擎總裁譚待重申了這一立場，他表示：「大模型的應用成本已經得到很好解決。大模型要從卷價格走向卷性能、卷更好的模型能力和服務」。

早在今年 5 月，火山引擎推出的豆包大模型把價格降至最低每千 token 低于一厘錢，引發了大模型廠商的價格戰。從那以來，模型廠商的整體模型調用量均出現了大幅提升。

據火山引擎披露，截至 9 月，豆包語言模型的日均 tokens 使用量超過 1.3 萬億，相比 5 月首次釋出時增長超十倍，多模态資料處理量也分别達到每天 5000 萬張圖檔和 85 萬小時語音。

盡管如此，模型性能掣肘成為了模型調用量進一步提升的瓶頸，同時也是機會。譚待舉例稱，業内多家大模型目前最高僅支援 300K 甚至 100K 的 TPM（每分鐘 token 數），難以承載企業生産環境流量。例如某科研機構的文獻翻譯場景，TPM 峰值為 360K，某汽車智能座艙的 TPM 峰值為 420K，某 AI 教育公司的 TPM 峰值更是達到 630K。為此，豆包大模型預設支援 800K 的初始 TPM，超行業平均水準，客戶還可根據需求靈活擴容。

此前 MiniMax 創始人闫俊傑向極客公園表示，從技術發展的角度看，模型推理成本 10 倍、百倍的降低是必然，隻是時間問題，難的是通用模型的性能提升。

在看到從 ChatGPT 到 GPT-4，性能出現了大幅提升時，大模型領域也沿着 OpenAI 在模型預訓練上做 Scaling Law，旨在用更多的資料、加更多的算力、提升模型參數量的做法來提升模型性能。随着這一路徑的效率降低、優質資料耗盡的擔憂，通過這一方法提升性能的路徑陷入瓶頸。

現在，随着 o1 的出現，大模型在推理階段引入強化學習的路徑，帶來了進一步提升模型性能的明确路徑。

同時，随着更多企業在 AI 應用上的探索，也為模型性能的定向提升帶來了很多工程調優手段。更好的模型性能、更好用的模型服務，才能在産品上打開更多場景，而這也将成為包括火山引擎在内的 AI 基礎設施服務商們下一階段的重點。

火山引擎丢出視訊大模型「王炸」，雲廠商從「價格戰」回歸「卷性能」

01 抖音和剪映加持，位元組視訊生成大模型更關注使用場景

02 從「卷」價格，回到「卷」性能

繼續閱讀

為了流量不擇手段！販賣悲傷、制造同情......短視訊的擺拍套路有多深？

小商販有暴力傾向，城管态度始終很好，原視訊我看了，咱有一說一

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務

籃球場女孩被男子踹飛倒地後續：警方介入，視訊曝光，評論區淪陷

以軍新視訊指辛瓦爾曾帶妻兒隧道避難，紙巾留下DNA洩露行蹤

微視訊｜金磚力量

太下頭！5秒視訊、虎狼之詞，“性凝視”在她身上展現得淋漓盡緻

李子柒強勢回歸！她人生坎坷，新視訊的内容有何變化？

中醫藥領域卷出多個大模型，“AI老中醫”來了？

出手即王炸？照片級真實度生成式世界模型，還獲得皮克斯投資

CBA最大混子球員？拿着600萬頂薪，缺席17場，不打比賽跑去拍視訊

新春紅包，點開就有！今視訊發紅包啦🧧

還沒結束！紅内褲女主删視訊、承認偷竊行為後，胖東來開始動手了

騰訊、華為等接入DeepSeek每月虧損超4億，MaaS模型即服務将要被颠覆了？｜钛媒體AGI

性趣機器人意外獲大模型賦能，成人用品概念股集體上漲，逆天了？

劉亦菲和華為副總裁的視訊爆火，暴露了男女關系的紮心真相