最近大家熱議的ChatGPT和AI繪畫工具的底層技術原理是什麼？又是如何發展到現在的？除了這些熱門的工具，作為普通使用者，我們還能接觸哪些應用AI技術打造的商業解決方案？

MidjourneyAI繪畫工具社群作品

最近我對上面這些問題也非常感興趣，于是查閱了AIGC相關相關的調研報告和各類資料，按照優化後的目錄架構對内容進行了摘錄和編排，希望能夠幫助大家也能更快了解和入門。

内容主要來自：《騰訊研究院-AIGC發展趨勢報告2023》和《量子位智庫-AI生成内容産業展望報告》這兩篇行業報告，以及各類平台的相關文章、視訊，文末我也會對參考内容的來源進行标注，想要深度了解的話可以留意下。

因為這篇文章是非原創的，收錄的所有資訊隻是為了和大家進行學習交流，沒有任何商業目的，如果搬運到的内容侵犯到了創作者的權益，可以聯系我進行删除。

就先啰嗦這麼多吧，文章比較長，大概需要1-2個小時才能完整閱讀，可以找個安靜的地方一口氣讀完。裡面的專業詞彙如果不懂，可以先忽略，對于普通人來說，我們隻需要了解大概的曆程和應用場景以及代表工具即可。

一、技術定義

AIGC全稱為AI-Generated Content，指基于生成對抗網絡GAN、大型預訓練模型等人工智能技術，通過已有數據尋找規律，并通過适當的泛化能力生成相關内容的技術。與之相類似的概念還包括Synthetic media，合成式媒體，主要指基于AI生成的文字、圖像、音頻等。

從字面意思上看，AIGC是相對于過去的 PCG、UCG 而提出的。是以，AIGC的狹義概念是利用Al自動生成内容的生産方式。但是 AIGC已經代表了AI技術發展的新趨勢。

過去傳統的人工智能偏向于分析能力，即通過分析一組資料，發現其中的規律和模式并用于其他多種用途，比如應用最為廣泛的個性化推薦算法。而現在人工智能正在生成新的東西，而不是僅僅局限于分析已經存在的東西，實作了人工智能從感覺了解世界到生成創造世界的躍遷。

是以，從這個意義上來看，廣義的 AIGC 可以看作是像人類一樣具備生成創造能力的 AI技術，即生成式 AL它可以基于訓練資料和生成算法模型，自主生成創造新的文本，圖像、音樂、視訊、3D互動内容(如虛拟化身、虛拟物品、虛拟環境)等各種形式的内容和資料，以及包括開啟科學新發現，創造新的價值和意義等。"是以，AIGC已經加速成為了Al 領域的新疆域，推動人工智能迎來下一個時代。

MIT 科技評論也将A1 合成資料列為 2022 年十大突破性技術之一，甚至将生成性 Al(Generative AI)稱為是AI領域過去十年最具前景的進展。Gartner 将生成性 A1 列為 2022 年5大影響力技術之一。

Gartner 也提出了相似概念Generative AI，也即生成式AI。生成式AI是指該技術從現有資料中生成相似的原始資料。相較于量子位智庫認為的AIGC，這一概念的範圍較狹窄。

一方面，這一概念忽略了跨模态生成（如基于文本生成圖像或基于文本生成視訊）這一愈加重要的AIGC部分。我們會在下一部分對跨模态生成進行重點講解。另一方面，在結合現有技術能力和落地場景進行分析後，我們認為“生成”和“内容”都應該采取更為廣泛的概念。

例如，生成中可以包含基于線索的部分生成、完全自主生成和基于底稿的優化生成。内容方面，不僅包括常見的圖像、文本、音頻等外顯性内容，同樣也包括政策、劇情、訓練資料等内在邏輯内容。

從特定角度來看，AI内容生成意味着AI開始在現實内容中承擔新的角色，從“觀察、預測”拓展到“直接生成、決策”。

從商業模式來看，我們認為，AIGC本質上是一種AI賦能技術，能夠通過其高通量、低門檻、高自由度的生成能力廣泛服務于各類内容的相關場景及生産者。是以，我們不會将其定義為PGC\UGC之後的新内容創作模式，而是認為其在商業模式上會有大量其他交叉。

未來，兼具大模型和多模态模型的 AIGC模型有望成為新的技術平台。如果說 Al 推薦算法是内容分發的強大引整，AIGC則是資料與内容生産的強大引整。

AIGC朝着效率和品質更高、成本更低的方向發展，在某些情況下，它比人類創造的東西更好。包括從社交媒休到遊戲，從廣告到建築，從編碼到平面設計、從産品設計到法律，從營銷到銷售等各個需要人類知識創造的行業都可能被 AIGC 所影響和變革。數字經濟和人工智能發展所需的海量資料也能通過 AIGC技術生成、合成出來，即合成資料(synthetic data)。

未來，人類的某些創造性的工作可能會被生成性 AI 完全取代，也有一些創造性工作會加速進入人機協同時代--人類與 AIGC技術共同創造比過去單純人的創造之下更高效、更優質。

在本質上AIGC 技術的最大影響在于，AIGC技術将會把創造和知識工作的邊際成本降至零，以産生巨大的勞動生産率和經濟價值。換句話說，正如網際網路實作了資訊的零成本傳播、複制。未來AIGC 的關鍵影響在于，将實作低成本甚至零成本的自動化内容生産，這一内容生産的範式轉變，将更新甚至重塑内容生産供給，進而給依賴于内容生産供給的行業和領域帶來巨大影響。

二、起源曆程

AIGC發展曆程和典型事件

雖然從嚴格意義上來說，1957 年萊傑倫·希勒(Lejaren Hiller)和倫納德·艾薩克森(Leon-ard saacson)完成了人類曆史上第一支由計算機創作的音樂作品就可以看作是 AIGC的開端，距今已有 65 年，這期間也不斷有各種形式的生成模型、Al 生成作品出現。

但是 2022年才真正算是 AIGC 的爆發之年，人們看到了 AIGC無限的創造潛力和未來應用可能性。目前，AIGC 技術沉澱、産業生态已初步形成，保持強勁發展和創新勢頭。

主流生成模型誕生曆程

生成算法、預訓練模型、多模态等AI技術累積融合，催生了AIGC 的大爆發。

一是，基礎的生成算法模型不斷突破創新。

2014年，伊恩·古德費洛(lan Goodfellow)提出的生成對抗網絡(Generative Adversarial Network，GAN)成為早期最為著名的生成模型。

GAN 使用合作的零和博弈架構來學習，被廣泛用于生成圖像、視訊、語音和三維物體模型等。GAN 也産生了許多流行的架構或變種，如DCGAN，StyleGAN，BigGAN，StackGAN.Pix2pix，Age-cGAN，CycleGAN、對抗自編碼器(Adversarial Autoencoders，AAE)、對抗推斷學習(Adversarially Learned Inference，ALI)等。

随後，Transformer、基于流的生成模型(Flow-based models)、擴散模型(Diffusion Model)等深度學習的生成算法相繼湧現。其中，Transformer 模型是一種采用自注意力機制的深度學習模型，這一機制可以按照輸入資料各部分重要性的不同而配置設定不同的權重，可以用在自然語言處理(NLP)、計算機視覺(CV)領域應用。後來出現的 BERT、GPT-3、LaMDA等預訓練模型都是基于Transformer 模型建立的。

而擴散模型(Diffusion Mode)是受非平衡熱力學的啟發，定義一個擴散步驟的馬爾可夫鍊，逐漸向資料添加随機噪聲，然後學習逆擴散過程，從噪聲中建構所需的資料樣本。擴散模型最初設計用于去除圖像中的噪聲。随着降噪系統的訓練時間越來越長并且越來越好，它們最終可以從純噪聲作為唯一輸入生成逼直的圖檔。

然而，從最優化模型性能的角度出發，擴散模型相對 GAN 來說具有更加靈活的模型架構和精确的對數似然計算，已經取代 GAN 成為最先進的圖像生成器。2021年6月，OpenAl 發表論文已經明确了這個結論和發展趨勢。

二是，預訓練模型引發了 AIGC技術能力的質變。

雖然過去各類生成模型層出不窮，但是使用門檻高、訓練成本高、内容生成簡單和品質偏低，遠遠不能滿足真實内容消費場景中的靈活多變、高精度、高品質等需求。預訓練模型的出現引發了 AIGC技術能力的質變，以上的諸多落地問題得到了解決。

随着 2018 年谷歌釋出基于 Transformer 機器學習方法的自然語言處理預訓練模型 BERT，人工智能領域進入了大煉模型參數的預訓練模型時代。AI預訓練模型，又稱為大模型、基礎模型(foundation mode)，即基于大量資料(通常使用大規模自我監督學習)訓練的、擁有巨量參數的模型，可以适應廣泛的下遊任務。這些模型基于遷移學習的思想和深度學習的最新進展，以及大規模應用的計算機系統，展現了令人驚訝的湧現能力，并顯著提高各種下遊任務的性能。”鑒于這種潛力，預訓練模型成為 AI技術發展的範式變革，許多跨領域的Al系統将直接建立在預訓練模型上。具體到 AIGC 領域，AI 預訓練模型可以實作多任務、多語言、多方式，在各種内容的生成上将扮演關鍵角色。按照基本類型分類，預訓練模型包括:(1)自然語言處理(NLP)預訓練模型，如谷歌的 LaMDA和 PaLM、Open AI的 GPT 系列:(2)計算機視覺(CV)預訓練模型，如微軟的 Florence:(3)多模态預訓練模型，即融合文字、圖檔、音視訊等多種内容形式。

三是，多模态技術推動了 AIGC 的内容多樣性，讓 AIGC 具有了更通用的能力。

預訓練模型更具通用性，成為多才多藝、多面手的 Al模型，主要得益于多模型技術(multimodal technol-ogy)的使用，即多模态表示圖像、聲音、語言等融合的機器學習。

2021年，OpenAI團隊将跨模态深度學習模型CLIP(Contrastive Lanquaqe-Image Pre-Training，以下簡稱“CLIP")進行開源。CLIP 模型能夠将文字和圖像進行關聯，比如将文字“狗”和狗的圖像進行關聯，并且關聯的特征非常豐富。是以，CLIP 模型具備兩個優勢:一方面同時進行自然語言了解和計算機視覺分析，實作圖像和文本比對。另一方面為了有足夠多标記好的“文本-圖像”進行訓練，CLIP 模型廣泛利用網際網路上的圖檔，這些圖檔一般都帶有各種文本描述，成為 CLIP 天然的訓練樣本。

據統計，CLIP 模型搜集了網絡上超過 40 億個“文本-圖像”訓練資料，這為後續 AIGC 尤其是輸入文本生成圖像/視訊應用的落地奠定了基礎。在多模态技術的支援下，目前預訓練模型已經從早期單一的 NLP或CV模型，發展到現在語言文字、圖形圖像、音視訊等多模态、跨模态模型。

2021年3月OpenAl釋出Al繪畫産品DALL·E，隻需要輸入一句文字，DALL·E 就能了解并自動生成一幅意思相符的圖像，且該圖像是獨一無二的。DALL·E 背後的關鍵技術即是 CLIP。CLIP 讓文字與圖檔兩個模态找到能夠對話的交界點，成為 DALL·E、DALL·E2.0、Stable Diffusion 等突破性 AIGC成果的基石。總的來看，AIGC 在 2022 年的爆發，主要是得益于深度學習模型方面的技術創新。不斷創新的生成算法、預訓練模型、多模态等技術融合帶來了 AIGC技術變革，擁有通用性、基礎性、多模态、參數多、訓練資料量大、生成内容高質穩定等特征的 AIGC模型成為了自動化内容生産的“工廠”和“流水線”。

三、行業現狀

AIGC 産業生态加速形成和發展，走向模型即服務(MaaS)的未來，目前，AIGC 産業生态體系的雛形已現，呈現為上中下三層架構：

第一層，為上遊基礎層，也就是由預訓練模型為基礎搭建的 AIGC技術基礎設施層。由于預訓練模型的高成本和技術投入，是以具有較高的進入門檻。

以 2020 年推出的 GPT-3 模型為例Alchemy APl 創始人 Elliot Turner 推測訓練 GPT-3 的成本可能接近 1200 萬美元。

是以，目前進入預訓練模型的主要機構為頭部科技企業、科研機構等。目前在AIGC領域，美國的基礎設施型公司(處于上遊生态位)有OpenAl、Stability.ai等。

OpenAl的商業模式為對受控的 api調用進行收費。Stabilitv.ai以基礎版完全開源為主，然後通過開發和銷售專業版和定制版實作商業獲利，目前估值已經超過 10 億美金。因為有了基礎層的技術支撐，下遊行業才能如雨後春筍般發展，形成了目前美國的 AIGC 商業流。

第二層，為中間層，即垂直化、場景化、個性化的模型和應用工具。

預訓練的大模型是基礎設施，在此基礎上可以快速抽取生成場景化、定制化、個性化的小模型，實作在不同行業、垂直領域、功能場景的工業流水線式部署，同時兼具按需使用、高效經濟的優勢。随着兼具大模型和多模态模型的AIGC模型加速成為新的技術平台，模型即服務(Model-as-a-Service,MaaS)開始成為現實，預計将對商業領域産生巨大影響。Stable Diffusion 開源之後，有很多基于開源模型的二次開發，訓練特定風格的垂直領域模型開始流行，比如著名的二次元畫風生成的 Novel-Al，還有各種風格的角色生成器等。

第三層，為應用層，即面向C端使用者的文字、圖檔、音視訊等内容生成服務。

在應用層，側重滿足使用者的需求，将 AIGC 模型和使用者的需求無縫銜接起來實作産業落地。以 Stable Diffusion 開源為例，它開放的不僅僅是程式，還有其已經訓練好的模型，後繼創業者能更好的借助這一開源工具，以 C端消費級顯示卡的算力門檻，挖掘出更豐富的内容生态，為 AIGC 在更廣泛的C端使用者中的普及起到至關重要的作用。

現在貼近C端使用者的工具越發豐富多樣，包括網頁、本地安裝的程式、移動端小程式、群聊機器人等，甚至還有利用 AIGC工具定制代出圖的内容消費服務。

目前，從提供預訓練模型的基礎設施層公司到專注打造 AIGC産品和應用工具的應用層公司，美國圍繞 AIGC 生長出繁榮的生态，技術創新引發的應用創新浪潮疊起:中國也有望憑借領先的 AIGC 技術賦能千行百業。

随着數字技術與實體經濟融合程度不斷加深，以及網際網路平台的數字化場景向元宇宙轉型，人類對數字内容總量和豐富程度的整體需求不斷提高。

AIGC作為目前新型的内容生産方式，已經率先在傳媒、電商、影視、娛樂等數字化程度高、内容需求豐富的行業取得重大創新發展。市場潛力逐漸顯現。與此同時，在推進數實融合、加快産業更新的程序中，金融、醫療、工業等各行各業的 AIGC 應用也都在快速發展。

四、應用場景

文本生成

從現有的落地場景來看，我們将其劃分為應用型文本和創作型文本生成，前者的進展明顯優于後者。此外，從應用推廣的角度來說，輔助文本創作是目前落地最為廣泛的場景。

應用型文本生成

應用型文本大多為結構化寫作，以客服類的聊天問答、新聞撰寫等為核心場景。2015年發展至今，商業化應用已較為廣泛，最為典型的是基于結構化資料或規範格式，在特定情景類型下的文本生成，如體育新聞、金融新聞、公司财報、重大災害等簡訊寫作。據分析師評價，由AI完成的新聞初稿已經接近人類記者在30分鐘内完成的報道水準。Narrative Science 創始人甚至曾預測，到 2030 年，90%以上的新聞将由機器人完成。

在結構化寫作場景下，代表性垂直公司包括Automated Insights(美聯社Wordsmith)、NarrativeScience、textenaine.io、AX Semantics、Yseop、Arria、Retresco、Viable、瀾舟科技等。同時也是小冰公司、騰訊、百度等綜合性覆寫AIGC領域公司的重點布局領域。

創作型文本生成

創作型文本主要适用于劇情續寫、營銷文本等細分場景等，具有更高的文本開放度和自由度，需要一定的創意和個性化，對生成能力的技術要求更高。

我們使用了市面上的小說續寫、文章生成等AIGC工具。發現長篇幅文字的内部邏輯仍然存在較明顯的問題、且生成穩定性不足，尚不适合直接進行實際使用。據聆心智能創始人黃民烈教授介紹，目前文字生成主要捕捉的是淺層次，詞彙上統計貢獻的問題。但長文本生成還需要滿足語義層次準确，在篇章上連貫通順的要求，長文本寫作對幹

議論文寫作、公文寫作等等具有重要意義。未來四到五年，可能會出現比較好的千字内容。

除去本身的技術能力之外，由于人類對文字内容的消費并不是單純理性和基幹事實的，創作型文本還需要特别關注情感和語言表達藝術。我們認為，短期内創作型文本更适合在特定的賽道下，基于集中的訓練資料及具體的專家規則進行場景落地。

在創作型文本領域，代表性的國内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy Al、Rasa.io、LongShot.Al、彩雲小夢等。

文本輔助生成

除去端到端進行文本創作外，輔助文本寫作其實是目前國内供給及落地最為廣泛的場景。主要為基于素材爬取的協助作用，例如定向采集資訊素材、文本素材預處理、自動聚類去重，并根據創作者的需求提供相關素材。盡管目前能夠提升生産力，但我們認為相對于實作技術意義上的AI生成，能否結合知識圖譜等提供素材聯想和語句參考等更具有實用意義。

這部分的國内代表産品包括寫作貓、Gilso寫作機器人、Get寫作、寫作狐、沃沃AI人工智能寫作。

重點關注場景

長期來看，我們認為閑聊型文本互動将會成為重要潛在場景，例如虛拟伴侶、遊戲中的NPC個性化互動等。2022年夏季上線的社交AIGC叙事平台Hidden Door以及基幹GPT 3開發的文本探索類遊戲Aldungeon均已獲得了不錯的消費者回報。

随着線上社交逐漸成為了一種常态，社交重點向轉移AI具有其合理性，我們預估未來1-2年内就會出現明顯增長。目前較為典型的包括小冰公司推出的小冰島，集中在精神心理領域的聆心智能、開發了AIdungeon的Latitude.io等。

音頻及文字—音頻生成

整體而言，此類技術可應用于流行歌曲、樂曲、有聲書的内容創作，以及視訊、遊戲、影視等領域的配樂創作，大大降低音樂版權的采購成本。我們目前最為看好的場景是自動生成實時配樂，語音克隆以及心理安撫等功能性音樂的自動生成。

TTS(Text-to-speech)場景

TTS在AIGC領域下已相當成熟，廣泛應用于客服及硬體機器人、有聲讀物制作、語音播報等任務。例如倒映有聲與音頻用戶端“雲聽”APP合作打造AI新聞主播，提供音頻内容服務的一站式解決方案，以及喜馬拉雅運用TTS技術重制單田芳聲音版本的《毛氏三兄弟》和曆史類作品。這種場景為文字内容的有聲化提供了規模化能力。

目前技術上的的關鍵，在于如何通過富文本資訊(如文本的深層情感、深層語義了解等)更好的表現其中的抑揚頓挫以及基于使用者較少的個性化資料得到整體的複制能力(如小樣本遷移學習》。基于深度學習的端到端語音合成模式也正在逐漸替代傳統的拼接及參數法，代表模型包括WaveNet、Deep Voice及Tacotron等。

目前的垂直代表公司包括倒映有聲、科大訊飛、思必馳(DUl)、Readspeaker、DeepZen和Sonantic。

随着内容媒體的變遷，短視訊内容配音已成為重要場景。部分軟體能夠基幹文檔自動生成解說配音，上線有150+款包括不同方言和音色的AI智能配音主播。代表公司有九錘配音、加音、XAudioPro、剪映等。

在TTS領域，語音克隆值得特别關注。語音克隆是本質上屬于指定了目智語音(如特定發言人)的TTS。技術流程如下:

該技術目前被應用于虛拟歌手演唱、自動配音等，在聲音IP化的基礎上，對于動畫、電影、以及虛拟人行業有重要意義。代表公司包括标貝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod.Resemble Ai、Respeecher、DeepZen、Sonantic、VoicelD、Descript。

樂曲/歌曲生成

AIGC在詞曲創作中的功能可被逐漸拆解為作詞(NLP中的文本創作/續寫)、作曲、編曲、人聲錄制和整體混音。目前而言，AIGC已經支援基于開頭旋律、圖檔、文字描述、音樂類型、情緒類型等生成特定樂曲。

其中，AI作曲可以簡單了解為“以語言模型(目前以Transformer為代表，如谷歌Megenta、OpenAlJukebox、AIVA等)為中介，對音樂資料進行雙向轉化(通過MIDI等轉化路徑)”。此方面代表性的模型包括MelodyRNN、Music Transformer。據Deepmusic介紹，為提升整體效率，在這一過程中，由于相關資料巨大往往需要對段落，調性等高次元的樂理知識進行專業提取，而節奏、音高、音長等低次元樂理資訊由AI自動完成提取。

通過這一功能，創作者即可得到AI創作的純音樂或樂曲中的主旋律。2021年末，貝多芬管弦樂團在波昂首演人工智能譜寫完成的貝多芬未完成之作《第十交響曲》，即為AI基于對貝多芬過往作品的大量學習，進行自動續寫。

Al編曲則指對AI基于主旋律和創作者個人的偏好，生成不同樂器的對應和弦(如鼓點、貝斯、鋼琴等)，完成整體編配。在這部分中，各樂器模型将通過無監督模型，在特定樂曲/情緒風格内學習主旋律和特定要素間的映射關系，進而基于主旋律生成自身所需和弦。對于人工而言，要達到樂曲編配的職業标準，需要7-10年的學習實踐。

人聲錄制則廣泛見于虛拟偶像的表演現場(前面所說的語音克隆)，通過端到端的聲學模型和神經聲碼器完成.

可以簡單了解為将輸入文本替換為輸入MIDI資料的聲音克隆技術。混音指将主旋律、人聲和各樂器和弦的音軌進行渲染及混合，最終得到完整樂曲。該環節涉及的AI生成能力較少。

該場景下的代表企業包括Deepmusic、網易-有靈智能創作平台、Amper Music、AIVA、Landr、IBM

、Watson Music、Magenta、Loudly、Brain.FM、Splash、Flow machines。其中，自動編曲功能已在國内主流音樂平台上線，并成為相關大廠的重點關注領域。以QQ音樂為例，就已成為Amper music的API合作夥伴。

對這一部分工作而言，最大的挑戰在于音樂資料的标注。在标注階段，不僅需要需要按時期、流派、作曲家等特征，對訓練集中樂曲的旋律、曲式結構、和聲等特征進行描述，還要将其有效編碼為程式語言。此外，還需要專業人員基于樂理進行相關調整潤色。以Deepmusic為例，音樂标注團隊一直專注在存量歌曲的音樂資訊标注工作上，目前已經形成了全球最精确的華語歌曲音樂資訊庫，為音樂資訊檢索(MIR)技術研究提供資料支援。

場景推薦

我們認為，以樂曲二創、輔助創作等場景為代表，Al編曲将在短期内成為AI音頻生成中的快速成長賽道。特别是由于可以指定曲目風格、情緒、樂器等，AIGC音樂生成對幹影視劇、遊戲等多樣化，乃至實時的背景音樂生成有重要意義。

圖像生成

基于對不同技術原理的梳理，我們将圖像生成領域的技術場景劃分為圖像屬性編輯、圖像局部生成及更改、以及端到端的圖像生成。其中，前兩者的落地場景為圖像編輯工具，而端到端的圖像生成則對應創意圖像及功能性圖像生成兩大落地場景。

圖像屬性及部分編輯

屬性編輯部分，可以直覺的将其了解為經AI降低門檻的PhotoShop。目前而言，圖檔去水印、自動調整光影、設定濾鏡(如Prisma、Versa、Vinci和Deepart)、修改顔色紋理(如DeepAl)、複刻/修改圖像風格(DALL·E2已經可以僅憑借單張冬像進行風格複刻，NiahtCafe等)、提升分辨率等已經常見。

關于此類場景，初創公司數量龐大，Adobe等相關業務公司(Adobe Sensai)也在進入這一領域。我們認為，對于此類業務而言，引流管道和與技術流程挂鈎的産品使用體驗非常重要。現有的代表公司包括美圖秀秀(美圖AI開放平台)、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、Skylum (Mask Al)、Photodiva。

圖像部分編輯部分，指部分更改圖像部分構成(如英偉達CvcleGAN支援将圖内的斑馬和馬進行更改)、修改面部特征(Metaphysics，可調節自身照片的情緒、年齡、微笑等;以Deepfake為代表的圖像換臉)。由幹技術限制，圖像的各部分之間需要通過對齊來避免扭曲，僞影等問題，目前GAN還難以直接生成高品質的完整圖像。2019年，曾宣傳能夠直接生成完整模特圖的日本公司DataGrid目前已無動向。但同時，也出現了由局部生成并接為完整冬像的生成惠路。典型代表為選入CVPR2022的InsetGAN，該模型由Adobe推出。

同時，細粒度、分區域的圖像編輯能力也較為關鍵，代表為英偉達的EditGAN。該模型将需要編輯的原圖像x嵌入到EditGAN的潛空間，借助語義分割冬的相同潛碼，将原冬x分割成高度精細的語義塊(seamentation mask)并得到分割冬v。接着，使用簡單的互動式數字繪畫或标簽工且進行手動修改。模型最終會共宣潛碼的優化，以保持新分割圖與真實圖像的RGB外觀一緻。如圖所示:

圖像端到端生成

此處則主要指基于草圖生成完整圖像(VansPortrait、谷歌Chimera painter可畫出怪物、英偉達GauGAN可畫出風景、基于草圖生成人臉的DeepFaceDrawing)、有機組合多張圖像生成新圖像(Artbreeder)、根據指定屬性生成目标圖像(如Rosebud.ai支援生成虛拟的模特面部)等。

該部分包含兩類場景，分别為創意圖像生成與功能性圖像生成。前者大多以NFT等形式展現，後者則大多以營銷類海報/界面、loao、模特圖、使用者頭像為主。

垂直代表公司/産品包括Deepdream Generator、Rosebud.ai、AGahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿裡鹿班、ZMO.ai、Datagrid、詩雲科技、道子智能繪畫系統等。

由幹冬像的生成複雜度遠高幹文字，在整體生成上，目前仍然難以達到穩定可靠的生成高品質圖像。但據高林教授評價，人臉生成的應用将預計有更快的發展。從VAQ、VAE等技術選型開始，人臉生成的技術研究已經有了較好的效果，同時人臉資料集也較為充足。同時，單張的人臉生成價值相對有限。

要進一步發揮其價值，可以考慮将其與NeRE、也即3D内容生成相結合，支援從不同的視角和動作還原特定對象面部，能夠在釋出會、面見客戶等場景中有重要作用。而對于近年視訊換臉效果不佳的情況，高教授認為這與底層設計優化，例如除紋理相似度之外，在解編碼中考慮更多的時間、動作、甚至情感等因素，并疊加考慮資料、渲染能力等因素。

視訊生成

視訊屬性編輯

例如視訊畫質修複、删除畫面中特定主體、自動跟蹤主題剪輯、生成視訊特效、自動添加特定内容、視訊自動美顔等。代表公司包括RunwayML、Wisecut、Adobe Sensei、Kaleido、帝視科技、CCTV AIGC、影譜科技、Versa(不咕剪輯)、美圖影像研究院等。

視訊自動剪輯

其幹視訊中的畫面，聲音等多模态資訊的特征融合進行學習，按照氛圍，情緒等進階語義限定，對滿足條件片段進行檢測井合成。目前還主要在技術嘗試階段。典型案例包括Adobe與斯坦福共同研發的A視訊重标系統、IBMWatson自動前标電影飾告片，以及Flow Machine。大陸的影譜科技推出了相關産品，能夠其幹視訊中的畫面，聲音等多模态資訊的特征融合進行學習，按照氛圍，情緒等進階語義限定，對滿足條件片段進行檢洳并合成。

視訊部分生成(以Deepfake為典型代表)

技術原理：視訊到視訊生成技術的本質是其千目标圖像或視訊對源視訊進行編輯及調試，通過其幹語音等要素诼幀複刻，能夠完成人臉替換，人臉再現人物表情或面部特征的改變)，人臉合成(建構全新人物)其至全身合成，虛拟環境合成等功能。

其原理本質與圖像生成類似，強調将視訊切案成師，再對每一幀的圖像進行外理。視訊生成的流程通常可以分為三個步驟，即資料提取，資料訓練及轉換。以人臉合成為例，首先需要對源人物及目标人物的多角度特作資料提取，然後基于資料對模型進行訓練并進行圖像的合成，最後基幹合成的圖像将原始視訊進行轉換，即插入生成的内容并進行調試，確定每一幀之間的流程度及真實度。目前的技術正在提升修改精準度與修改實時性兩方面。

落地分析

在我們看來，該場景的底層商業邏輯與虛拟偶像類似。本質上是以真人的肖像權作為演員，實際表演者承擔“中之人”的角色。其主要落地場景包含兩方面:

一方面，可以選擇服務于明星，在多語言廣告、碎片化内容生成等領域使用，快速提升明星的IP價值。例如Svnthesia 為SnoopDoaa制作的廣告，通過使用deepfake改變其嘴部動作，就能夠将原始廣告比對到另一品牌。

另一方面，則可以服務幹特定商務場景，例如教育訓練材料分發(如WPP的全球教育訓練視訊)，素人直播及短視訊拍攝等。

由于技術要求，需要對最終臉部所有者進行大量資料采集，需要相關從業公司擷取大量面部資料授權，對針對市場需求進行相關營運，完善後續的配套監管和溯源措施。

除了deepfake之外，我們還觀察到了在視訊中的虛拟内容植入，也即利用計算機圖形學和目标檢測在視訊中生成實體世界并不存在的品牌虛拟元素，如logo、産品、吉祥物等。以國外公司Marriad為代表，該公司目前已經為騰訊視訊服務，後者準備在插入虛拟資産的基礎上，個性化展示廣告。這将極大的簡化商業化内容的生成過程。

圖像、視訊、文本間跨模态生成

模态是指不同的資訊來源或者方式。目前的模态，大多是按照資訊媒介所分類的音頻、文字、視覺等。而事實上.在能夠導找到合适的載體之後，很多資訊，諸如人的觸覺、聽覺、情緒、生理名額、甚至于不同傳感器所對應的點雲、紅外線、電磁波等都能夠變為計算機可了解可處理的模态。

對人工智能而言，要更為精準和綜合的觀察并認知現實世界，就需要盡可能向人類的多模态能力靠攏，我們将這種能力稱為多模态學習MML(Multi-modal Learning)，其中的技術分類及應用均十分多樣。我們可以簡單将其分為跨模态了解(例如通過結合街景和汽車的聲音判斷交通潛在危險、結合說話人的唇形和語音判定其說話内容)和跨模态生成(例如在參考其他圖畫的基礎上命題作畫:觸景生情并創作詩歌等)。

Transformer架構的跨界應用成為跨模态學習的重要開端之一。

Transformer架構的核心是Self-Attention機制，該機制使得Transformer能夠有效提取長序列特征，相較于CNN能夠更好的還原全局。而多模态訓練普遍需要将圖檔提取為區域序列特征，也即将視覺的區域特征和文本特征序列相比對，形成Transformer架構擅長處理的一維長序列，對Transformer的内部技術架構相符合。

與此同時Transformer架構還且有更高的計算效率和可擴充性，為訓練大型跨模态模型奠定了基礎。Vision Transformer将Transformer架構首次應用于圖像領域。該模型在特定大規模資料集上的訓練成果超出了ResNet。

随後，谷歌的VideoBERT嘗試了将Transformer拓展到“視訊-文本”領域。該模型能夠完成看圖猜詞和為視訊生成字幕兩項功能，首次驗證了Transformer+預訓練在多模态融合上的技術可行性。基于Transformer的多模态模型開始受到關注，ViLBERT、LXMERT、UNITER、Oscar等紛紛出現。

CLIP模型的出現，成為跨模态生成應用的一個重要節點。

CLIP.ContrastiveLanguage-Image Pre-training，由OpenAl在2021年提出，圖像編碼器和文本編碼器以對比方式進行聯合訓練，能夠連結文本和圖檔。可以簡單将其了解為，利用CIP測定冬片和文本描述的貼切程度。

自CHP出現後，“CLP+其他模型”在跨模态生成領域成為一種較為通用的做法。以Disco Diffusion為例，該模型将CLIP模型和用于生成圖像的Diffusion模型進行了關聯。CLIP模型将持續計算Diffusion模型随機生成噪聲與文本表征的相似度，持續疊代修改，直至生成可達到要求的圖像。

除去圖像領域，CLIP後續還在視訊、音頻、3D模型等領域扮演了關聯不同模态的角色。例如入選CVPR2022.基于文本生成3D參像的Dreamfields(類似工作還包括CP-Forae)。不過目前，已經出現了在所需資料量和算力上表現更為優秀的比對模型。例如南加州大學的TONICS。

在此基礎上，大型預訓練模型的發展重點開始向橫跨文本、圖像、語音、視訊的全模态通用模型發展。通過計算政策、資料調用政策、深度學習架構等方法提升模型效果成為目前研究的進展關鍵。與此同時，覆寫更多模态的訓練資料同樣值得關注。例如，MultiBench提供了包括10個模态的資料集，PanoAVQA提供了360度視訊資料，X-World提供用于自動駕駛的各類模态資料。目前，華為諾亞方舟已經開源了全球首個億級中文多模态資料集“悟空”。

跨模态大型預訓練模型的代表包括:開啟了跨模态預訓練模型的Open ALDALL·E及CLIP、NVIDIA GauGAN2.微軟及北大 NÜWA女娲、NVIDIA PoEGAN、DeepMind的Gato、百度ERNIE-ViLG、Facebook及Meta 的AV-HuBERT(基于語音和唇語輸出文本)及Data2vec(橫跨CV、NIP和語音)、中科院“紫東太初”、哥大及Facebook開發的VX2Text(基幹視訊、音頻等輸出文本)。

多模态能力的提升将成為AI真正實作認知智能和決策智能的關鍵轉折點。在未來1-2年，“文字一圖像”的生成将快速落地。目前，“文字-視訊”的生成也已有相對理想的實驗效果，三個模态的跨模态生成也已經開始嘗試。

接下來，我們将區分具體模态，對跨模态生成領域的代表模型進行介紹

文字生成圖像

2021年，OpenAI的CLIP和DALLE開啟了AI繪畫重要的一年。同年，CVPR2021收錄的VQGAN也引發了廣泛關注。2022年被稱為“AI繪畫“之年，多款模型/軟體證明了基于文字提示得到效果良好的圖畫的可行性，DiffusionModel受到廣泛關注。

首先，OpenAI推出了GLIDE。GLIDE全稱Guided Lanquage to Image Diffusion for Generation andEditing，是一種擴散模型，參數僅35億。支援CLIP引導(經訓練後的噪聲感覺64x64 ViT-L CLIP模型)和無分類器引導，支援部分P圖和疊代生成。

随後為Disco Dlffusion，該免費開源項目搭載在Google Colab上，需要一定的代碼知識，更擅長夢境感的抽象田面，在具象生成和較多的描述語句上效果較差。随後，Disco Diffusion的作者之一推出了AI繪畫聊天機器人Midiournev。該軟體搭載在Discord上，商業化和産品化更為成熟，并提出了明确的分潤模式(商業變現達到兩萬美金後需要20%分潤)。

類似的軟體及公司包括Bia Sleep、StarrvAl、WOMBO Dream。國内相關軟體則包括Timmat，以及百度文心ERNIE-ViLG、小冰架構、悟道文瀾、阿裡M6等跨模态生成模型。

更擅長具象、對文本指令還原度更高的DALL。E2和Imagen Al證明了AI繪畫的實際應用價值。但需要注意的是兩者的技術思路并不相同。盡管擴散模型等引發了巨大關注，但不同的技術思路同樣呈現出了較好效果。目前尚無法确定未來AI繪畫的關鍵技術裡程碑。

文字生成視訊

在一定程度上，文本生成視訊可以看作是文本生成圖像的進階版技術。我們預估，AI繪畫和AI生成視訊将分别在3年和5年後迎來較為廣泛的規模應用。

一方面，兩者的本質比較接近。文本生成視訊同樣是以Token為中介，關聯文本和圖像生成，逐幀生成所需圖檔，最後逐幀生成完整視訊。而另一方面，視訊生成會面臨不同幀之間連續性的問題。對生成圖像間的長序列模組化問題要求更高，以確定視訊整體連貫流程。從資料基礎來看，視訊所需的标注資訊量遠高于圖像。

按照技術生成難度和生成内容，可以區分為拼湊式生成和完全從頭生成兩種方式。

拼湊式生成的技術是指基幹文字(涉及NLP語義了解)搜尋合适的配圖、音樂等素材，在已有模闆的參考下完成自動剪輯。這類技術本質是“搜尋推薦+自動拼接”，門檻較低，背後授權素材庫的體量、已有模版數量等成為關鍵因素。目前已經進入可商用階段，國外有較為成熟的産品。代表公司/産品方面，2C的包括百度智能視訊合成平台

VidPress，彗川智能，Gliacloud. Svnths video.lumen5.2B端代表公司為Pencil.

完全從頭生成視訊則是指由AI模型基于自身能力，不直接引用現有素材，生成最終視訊。該領域目前仍處于技術嘗試階段，所生成視訊的時長、清晰度、邏輯程度等仍有較大的提升空間。以Cogvideo為例.該模型基于預訓練文本-圖像模型CogView2打造，一共分為兩個子產品。第一部分先基于CogView2，通過文本生成幾幀圖像，這時候合成視訊的幀率還很低;第二部分則會基于雙向注意力模型對生成的幾幀圖像進行插幀，來生成幀率更高的完整視訊。

由于從靜态内容生成進入到了動态生成階段，需要考慮其中時序性、連續性的問題。視訊生成對于内容生成領域将具有節點性意義。同時，由于視訊中會包括文本中難以表現的邏輯或嘗試，相較于圖像或純文字訓練，視訊預訓練模型有助于進一步釋放語言模型的能力。

其他相關預訓練模型還包括NVIDIA推出的GauGAN、微軟亞洲研究院推出的GODIVA、清華及智源研究院提出的VideoGPT、TGAN、Ground Truth等。

圖像/視訊到文本

具體應用包括視覺問答系統、配字幕、标題生成等，這一技術還将有助于文本一圖像之間的跨模态搜尋。代表模型包括METER、ALIGN等。除了在各個模态之間進行跨越生成之外，目前，包括小冰公司在内的多家機構已經在究多模态生成，同時将多種模态資訊作為特定任務的輸入，例如同時包括圖像内的人物、時間、地點、事件、動作及情感了解、甚至包含背後深度知識等。以保證生成結果更加精準。

政策生成

遊戲AI

以騰訊AI Lab在遊戲制作領域的布局為例，人工智能在遊戲前期制作、遊戲中營運的體驗及營運優化、遊戲周邊内容制作的全流程中均有應用。

我們将其中的核心生成要素提煉為Al Bot、NPC相關生成和相關資産生成。

Al Bot，也即遊戲操作政策生成

可以将其簡單了解為人工智能玩家，重點在幹生成真實對戰政策。2016年Deepmind AlphaGO在圍棋中有所展示，随後，AI決策在Dota2、StarCraft2、德撲、麻将等遊戲領域中均展現出了良好的實力。

技術關鍵在于強化學習方案優化設計，展現為多智能體使用、可适應遊戲/環境複雜度、具體政策多樣性等。目前，包括網易在内的大陸主流遊戲公司已經形成共識，除去直接以陪玩等形式服務C端玩家，也在通過遊戲跑圖。

平衡度等方式服務于遊戲開發/營運等B端。

NPC邏輯及劇情生成，也即由AI生成底層邏輯

此前，NPC具體的對話内容及底層劇情需要人工創造驅動腳本，由制作人主觀聯想不同NPC所對應的語言、動作、操作邏輯等，這種動态的個性化比對背後依舊是不同的靜态分支，創造性及個性化相對有限。

而以rct AI的智能NPC為例，其NPC能夠分析玩家的實時輸入，并動态地生成互動反應，進而建構幾乎無限目不重複的劇情，增強自戶體驗并延長遊戲生命周期。特别是在養成類遊戲中，Al所提供的個性化生成能夠帶來畫面，劇情及具體互動的個性化全新遊戲體驗。而實時劇情生成則有助于在特定架構内生成全新的可能性，增加遊戲整體的叙事可能性。

虛拟數字人

虛拟數字人指存在于非實體世界(如圖檔、視訊、直播、一體服務機、VR)中，并具有多重人類特征的綜合産物。

目前“深度合成+計算驅動”型的虛拟人，綜合運用文本、圖像、音頻等生成技術，打造綜合外觀、面部表情、發聲習慣等産出全面拟人化的數字内容，屬于AIGC領域。

此種多模态生成技術的聚合應用在虛拟偶像、虛拟主播等領域已有廣泛應用。在《量子位虛拟數字人深度産業報告》中，我們将虛拟人按照産業應用劃分為兩種，即服務型虛拟人及身份型虛拟人。

計算驅動型/AIGC型虛拟人制作流程

1.設計形象：掃描真人形态及表演、采集驅動資料，利用多方位攝像頭，對通用/特定模特進行打點掃描，采集其說話時的唇動、表情、面部肌肉變化細節、姿态等資料。

2.形象模組化，進行綁定：設計所需的模型，或基于特定真人進行高還原度模組化，進行關鍵點綁定。關鍵點綁定的數量及位置影響最終效果。

3.訓練各類驅動模型：決定最終效果的核心步驟利用深度學習，學習模特語音，唇形，表情參數間的潛在映射關系，形成各自的驅動模型與驅動方式。

充足的吸動關鍵占配合以精度較高的驅動模型，能夠高還原度的複原人臉骨骼和肌肉的細微變化，得到逼真的表情驅動模型。

4.内容制作：基于輸入的語音(或由輸入文本轉化的語音)，預測唇動、表情等參數核心的技術流程是基于輸入的語音，或首先基于TTS技術(Text-to-speech，語音合成技術)。

将輸入的本文轉化為語音。基于語音，結合第3步得到的驅動模型，并利用生成對抗模型GAN選出最符合現實的圖檔，推理得到每幀數字人的圖檔。通過時間戳，将語音和每幀的數字人圖檔進行結合。

5.進行渲染，生成最終内容：直播時進行實時渲染。為保證在特定場景下能夠實作實時低延遲渲染，計算架構的大小、算力供給等技術問題同樣會影響到虛拟數字人的最終生成效果

綜合來看，我們認為虛拟人生成代表着從文本/音頻等低密度模态向圖像/視訊/實時互動等資訊密度更高的模态的轉化。其中，視訊是短期的發展重點，而長期來看，乃至在元宇宙階段，通過實時互動成為社交節點，都将是虛拟人重要的應用場景。

在AIGC領域，我們将虛拟人生成分為虛拟人視訊生成和虛拟人實時互動。

虛拟人視訊生成是目前計算驅動型虛拟人應用最為廣泛的領域之一，不同産品間主要的區分因素包括:唇形及動作驅動的自然程度、語音播報自然程度、模型呈現效果(2D/3D、卡通/高保真等)、視訊渲染速度等。

我們在此關注到了小冰公司與每日财經新聞合作的虛拟人實時直播，除虛拟人的自動生成外，還包括了摘要、圖示、表格等的自動生成，在虛拟人的基礎上，傳遞了更為完整的AIGC内容播報産品。此外，倒映有聲的TTSA除虛拟人外，還包括整個畫面中的素材呈現，相較于市面上嘴形、面部和身體律動的有限覆寫，虛拟人播報的整體效果也有所提升。

代表公司:倒映有聲

一家以技術為核心的創新型公司和無人驅動數字分身技術解決方案供應商。通過自研神經渲染引整和TTSA技術，實作基于文本實時生成高品質語音(音頻)和動畫(視訊)。

在試用了倒映有聲的産品後。我們發現其虛拟人自然度高于市面産品，倒映有聲将其歸結于神經渲染(NeuralRendering)、TTSA(基于文本和語音合成實時生成音頻和視訊)、ETTS(富情感語音合成)、Diqital Twin(數字孿生)。通過神經渲染技術快速建構AI數字分身，通過語音+圖像生成技術，生成和驅動教字分身的唇形、表情、動作、肢體姿态，創造表情自然，動作流暢，語音充滿情感的高拟真度數字分身IP。

而虛拟人的實時互動則廣泛應用于可視化的智能客服，多見于APP、銀行大堂等。在AIGC的虛拟人領域，由于更能夠展現AI在個性化、高并發性等方面的優勢，我們更強調虛拟人的實時互動功能。我們可以将這一功能了解為以人為機關的數字變生，其中會進一步涉及思維及政策相關的生成。但由于文本生成的局限性，該場景目前隻能适用于特定行業。

該領域的代表公司包括:HourOne.ai、Synthesia、Rephrase.ai、小冰公司、倒映有聲、數字王國、影譜科技、科大訊飛、相芯科技、追一科技、網易伏羲、火山引擎、百度、搜狗等。

除了基幹NLP進行問答外，以小冰公司和騰訊Alab(A虛拟人艾靈)為代表，部分公司也在嘗試将不同的生成能力融合在虛拟人下，使虛拟人能夠更好的融入現實世界。

以小冰公司的小冰架構為例，虛拟人不僅在人格化形式上涉及了虛拟面容生成，虛拟語音定制、互動等，并進一步被賦予了寫詩、繪畫、演唱、音樂創作等AI内容創作能力，以虛拟人為接口，對外提供全棧式的AIGC能力。

虛拟人及綜合性AIGC代表公司:小冰公司

小冰是全球領先的人工智能科技公司，旗下小冰架構是全球承載互動量最大的完備人工智能架構之一，在開放域對話、多模态互動、超級自然語音、神經網絡渲染及内容生成領域居于全球領先。

作為“Albeing”派虛拟人。小冰的産品始終是人+互動+内容。具體包括虛拟人(夏語冰等somebodyinstance、虛拟男友等nobodyinstance和國家隊人工智能助判與教練系統觀君等在乖直場景中工作的虛拟人類)，音精生成(主攻超級語言及歌聲，線上歌曲生成平台與歌手歌聲合成軟體Xstudio)、視覺創造(畢業作品集《或然世界》、為國家紡織品開發中心、萬事利等數百家機構提供了圖案和紋樣設計)、文本創造(2017年即推出小冰詩集)、虛拟社交、Game Al(Xiaoice Game Studio)等。

商業客戶已覆寫金融、智能車機、零售、體育、紡織、地産、文旅等十多個垂直領域，并提出了以“人力”的邏輯去進行商業報價的虛拟人商業模式。

五、國外AIGC工具

國外AIGC産品導航：https://library.phygital.plus

代表産品1：ChatGPT（文本生成領域）

ChatGPT官網：https://chat.openai.com/chat#

國内可使用這個入口進行體驗（國内團隊搭建的獨立站，暫時可以免費使用）：https://chat.forchange.cn

相關文章：一文讀懂：有關ChatGPT的十個問題

刷屏的ChatGPT能幫自媒體人寫稿嗎？我們試了試

代表産品2：Midjourney（圖像生成領域）

Midjourney官網：https://midjourney.com/home

midjourney作品分享社群：https://midjourney.com/showcase/recent

相關文章：一些 Midjourney 的入門指南與繪畫經驗

代表産品3：（視訊生成領域）

runwayml官網：https://runwayml.com

相關文章：https://weibo.com/1757693565/MrVor52jQ

六、國内AIGC工具

國内AIGC産品導航：https://www.ainav.cn/#term-24

代表産品1：（應用型文本生成領域）

copydone官網：http://copyai.cn

代表産品2：（文本輔助生成領域）

秘塔寫作貓：https://xiezuocat.com

代表産品3：（文字生成圖像領域）

站酷夢筆官網：https://www.zcool.com.cn/ailab

百度文心一格官網：https://yige.baidu.com

相關文章：中國AI繪畫行業調查報告——技術，使用者，争議與未來 - 少數派

https://sspai.com/post/76141

代表産品4：皮卡智能（圖像編輯領域）

官網：https://www.picup.shop

發展趨勢

總體而言，我們将AIGC産業劃分為内容領域和延展領域。内容領域是目前已經能夠、但并未有效實作商業化的領域。

預估未來1-2年之内會有相對完整的産業生态發展。而延展領域，由于對AI生成的自由度和穩定性有更高的技術要求.在國内的應用落地相對内容領域會更晚。分析師認為，由于能夠更加充分展現AIGC系統關聯及要素拆解兩大關鍵優勢延展領域後期将成為AIGC創造價值的主陣地，提供AIGC的想象空間天花闆。

大陸AIGC行業目前是嘗試階段，重點在于技術完善+需求探索，研究機構的作用明顯。大部分情況下AIGC尚未進入業務場景，變現能力有待增長。具有編輯優化功能的AIGC将成為這段時期的發展重點。

在主要場景中，Al能夠遵從明确的指令或素材，完成有助于最終生成的工作，例如虛拟人播報，語音克降等。

我們将行業發展階段進行了如下劃分。其中，關鍵節點包括:

AIGC技術能力的成熟。展現在特定模型在大規模測試後名額能夠穩定在理想狀态，可以以論文發表及Github回報等作為關鍵名額。但需要強調，該階段的技術能力成熟往往距離實際應用仍有一段距離，不能直接作為判定标準。

産品形态的成熟。不僅包括低代碼/零代碼等低門檻要求，還需要符合創作者的使用習慣，例如，能夠中途及時介入修改，多種形式的prompt，有充足的介入接口等。分析師認為後者更為重要，除去産品設計之外也與本身的技術架構相關。

核心場景的确定。目前，盡管許多AIGC能力已經進入實際使用，但尚未尋找到能充分展現其核心價值的關鍵場景，應用價值無法得到充分發揮。

産業方的接納态度。包括底層接口開放、業務流程融通、産業基礎設施完善等。可以以行業頭部公司的接納/自研态度作為重要參考名額。

需要強調的是，由于各内容領域的生成技術之間發展差距較大，該階段評價僅基于AIGC行業整體。相關名額也可用于衡量不同AIGC賽道目前的成熟度，用幹預測其未來發展路徑。

在國内，布局最多的賽道是AI寫作和語音合成領域，虛拟人賽道剛剛開始興起基本均停留在内容領域。而在國外延展領域得到了更為充分的挖掘，例如個性化文本生成、合成資料等賽道均是重點布局領域。據相關公司披露，這兩個賽道均已獲得了明确業務價值和收入驗證，但在國外目前進展較少。

技術部分導緻了這一原因，但分析師認為，更大的原因在于此類業務拓展的綜合性要求較高，需要客戶方的數字化程度以及對對應行業的充分了解，預計國内外在這兩個賽道上存在2-3年差距。

最後，大陸的AIGC行業尚未建立起明确的變現方式。以寫作機器人、自動配音等場景為例，大部分産品仍處在免費試用的“流量吸引+平台改良”階段，收費空間相對較小。此外，多家公司提及，由于服務B端客戶時話語權較弱，會考慮向2B2C領域、乃至直接2C領域延展。但作為工具，能否在網際網路流量相對穩定的前提下有效接觸C端使用者，設計好産品轉化路徑，依舊是一項挑戰。

國外AIGC現有變現方式

作為底層平台接入其他産品對外開放，按照資料請求量和實際計算量計算

GPT-3對外提供API借口，采用的四種模型分别采用不同的按量收費方式

按産出内容量收費

包括DALL·E、Deep Dream Generator等AI圖像生成平台大多按照圖像張數收費

直接對外提供軟體

例如個性化營銷文本寫作工具AX Semantics則以約1900人民币/月的價格對外出售，并以約4800歐元/月的價格提供支援定制的電子商務版本。大部分C端AIGC工具則以約80人民币/月的價格對外出售

模型訓練費用，适用于NPC訓練等個性化定制需求較強的領域
根據具體屬性收費

例如版權授予(支援短期使用權，長期使用權，排他性使用權和所有權多種合作模式，擁有設計圖案的版權)，是否支援商業用途(個人用途、企業使用、品牌使用等)、透明架構和分辨率等

AIGC面臨的挑戰：

版權、安全、倫理等問題。AIGC在引發全球關注的同時，知識産權、技術倫理将面臨諸多挑戰和風險。同時AIGC距離通用人工智能還有較大的差距。

AIGC的飛速發展和商業化應用，除了對創作者造成沖擊外，也對大量依靠版權為主要營收的企業帶來沖擊。

AIGC距離通用人工智能還有較大差距，目前熱門的AIGC系統雖然能夠快速生成圖像，但是這些系統未必能夠真正了解繪畫的含義，進而能夠根據這些含義進行推理并決策。

部分開源的AIGC項目對生成的圖像監管程度較低，資料集系統利用私人使用者照片進行AI訓練，侵權人像圖檔進行訓練的現象屢禁不止。一些使用者利用AIGC生成虛假名人照片等違禁圖檔，甚至會制作出暴力和性有關的畫作。由于AI本身尚不具備價值判斷能力，一些平台已經開始進行倫理方面的限制和幹預，但相關法律法規仍處于真空階段。

入門AIGC，底層原理、應用場景、工具示例、行業現狀、發展趨勢