【AIGC新玩法：任意輸入、任意輸出】文生圖、文生視訊、文生音頻，火爆的AIGC，有沒有新玩法？目前，人們迫切希望開發一

【AIGC新玩法：任意輸入、任意輸出】文生圖、文生視訊、文生音頻，火爆的AIGC，有沒有新玩法？

目前，人們迫切希望開發一種多功能的生成模型——可以從任意一組輸入條件生成任意模态的組合，其可以更準确地捕捉世界和人類了解的多模态特性，無縫整合來自各種資訊源的内容，進而實作強大的人機互動（如同時生成連貫的視訊、音頻和文本描述）。

近日，微軟團隊便提出了一個新穎的多模态生成模型——Composable Diffusion（CoDi），其能夠從任何輸入模态（如語言、圖像、視訊或音頻）的組合中生成任何輸出模态的組合。

例如，根據一段文字生成“文字+音頻+圖檔”，給定一段文字來生成視訊和音頻、基于一段文字和一張圖檔生成新的文字和圖檔等。

據介紹，與現有的生成式AI系統不同，CoDi可以同時生成多種模态，且它的輸入不限于文本或圖像等模态的子集。盡管缺乏許多模态組合的訓練資料集，但CoDi可以将不同的模态在輸入和輸出空間中對齊。

這就使得CoDi可以自由調節任何輸入組合，并以此為條件生成任何一組模态，即使訓練資料中不包括這種組合。

同時，CoDi采用了一種新穎的可組合生成政策，包括在擴散過程中通過橋接對齊來建立一個共享的多模态空間，進而完成不同模态的同步生成的任務，比如在時間上對齊的視訊和音頻。

另外，CoDi也具備高度可定制、十分靈活的特點，能夠實作高品質模态内容的同時生成，且同時在單模态合成方面表現出色。#人工智能##aigc##科技快訊#

傳送門：

網頁連結

繼續閱讀