幹貨！最新綜述帶你全面了解ChatGPT，AIGC和擴散模型

2022年，ChatGPT的成功釋出引起了全球科技圈的轟動，而它的成熟應用也成為了AIGC時代到來的标志。目前，AIGC已經以超乎人們預期的速度迅速催生了全新的科技系統與産業格局。2023年4月20日，AI TIME舉辦的大模型專場三活動邀請了南韓慶熙大學助理教授張超甯和他的合作學生，來自南韓科學技術院的博士生張晨爽、南韓科學技術院碩士生張夢純、北京理工大學博士生鄭勝、南韓慶熙大學博士生喬羽。五位嘉賓分享了多篇與ChatGPT，AIGC和擴散模型相關的綜述論文，從不同的角度介紹了生成式AI的最新進展，展望了生成式AI面臨的機遇和挑戰。

張超甯

Generative AI

張老師首先介紹了自己的個人學習和工作經曆，然後給大家分析了人工智能前沿領域等面臨的難題與挑戰，并展示了自己目前已有的一些研究工作和成果，最後重點闡述了自己對下一步研究方向——Segment Anything Model的研究思路和創新觀點，并熱情邀請對計算機視覺、機器學習等領域有興趣的研究者在後期進行更加深入的交流與合作。

Segment Anything項目是一個用于圖像分割的新任務、模型和資料集，研究者旨在通過引入三個互相關聯的元件來建構分割的基礎模型：即時分割任務、支援資料注釋并通過即時工程将零樣本傳輸到一系列任務的分割模型。SAM目前解決了視覺領域模型泛化性弱的問題，并且在邊緣檢測方面的性能較好，張老師提到，後期将從SAM模型的擴充性以及資料的高效性兩個角度開展與其他模型的交叉應用研究。

張晨爽

Text-to-image Diffusion Models in

Generative AI: A Survey

Diffusion Model最早在圖像領域因為其強大的圖像生成能力而獲得了巨大的關注。其中，文本-圖像的擴散生成模型是一項令人印象深刻的工作。這篇綜述主要從背景、創始工作、應用場景三個方面介紹了擴散模型是如何應用到文本-圖像生成之中的。

張晨爽首先介紹了文本-圖像任務的具體定義和曆史上經典的裡程碑式的研究工作，其中重點介紹了DALL-E模型的理論思想以及擴散模型的工作原理及其相較于Autoregressive models在解決實際問題上的優勢；其次詳細分析了擴散模型應用在文本-圖像的4項經典工作，共可以分為兩大類——Frameworks in pixel space、Frameworks in latent space；然後梳理了在最新工作中最主要的4類改進方向：模型結構、用于空間控制的草圖、用于概念控制的文本轉變、超分布的檢索方法。最後介紹了文本-圖像任務在實際生活中的應用，主要有：視覺藝術生成、視訊生成、3D對象生成、文字引導圖像編輯等。

在第二篇音頻擴散模型的工作中，張晨爽着重介紹了研究者重點關注的兩大任務——Text To Speech、Speech Enhancement。其中重點分析了Text To Speech的發展階段和Speech Enhancement在研究過程中的需要解決的兩大任務：語音增強、提高語音的超分辨率。

張夢純

A Survey on Graph Diffusion Models：

Generative AI in Science for Molecule，

Protein and Material

由于圖的巨大表達能力，近年來越來越多的研究将機器學習與圖的分析和生成相結合，圖也在社會科學、知識庫、化學材料分子結構等衆多研究領域中得到了非常廣泛的應用。張夢純本次分享了一篇關于Graph擴散模型的文獻綜述：在分子蛋白質和材料中的生成式AI。

她首先介紹了圖的廣泛應用、圖的擴散模型以及綜述的總體架構；其次根據算法分類簡要回顧了深度圖生成模型的4種主流的生成方法，分别是：Auto-regressive Models、Normalizing Flows、Variztional Autoencoders (VAE)、Generative Adversarial Networks (GAN)，并總結了深度圖生成模型的統一架構，針對每一個模型歸納了相應的關于圖生成的經典模型方法；第三，介紹了擴散模型的相關背景知識，展示了目前基于擴散模型研究的三種主要表述方式并總結了這三種模型各自的前線過程、逆轉過程及優化目标；但是，盡管擴散模型顯示出優異的前景，但由于圖形資料的獨特屬性要求，這需要在标準擴散過程中進行适當的調整進而使其更加适合于圖形任務。有以下三種具體的修改過程：離散型擴散、低等級擴散、旋轉平移的等價性和不等價性。圖生成模型強大的性能使得其在Molecules分子、Protein蛋白質及其他方面有着廣泛的應用。在本篇綜述中不僅介紹了它的應用場景，還總結了常用的圖資料集以及一些常用于驗證生成模型有效性的圖評估名額；最後，概述了圖生成模型面臨的一些挑戰，主要包括評價标準、圖的多樣性、可擴充性、違規行為、可解釋性的問題。

鄭勝

One Small Step for Generative AI，

One Giant Leap for AGI：A Complete Survey

on ChatGPT in AIGC Era

ChatGPT自釋出以來，受到衆多圈内外學者的廣泛關注，其強大的互動生成能力為人們的工作、生活都帶來了諸多便利。鄭勝首先簡要介紹了ChatGPT的相關背景，分析了ChatGPT可以為日常生活、科學研究等帶來的影響和作用，比如ChatGPT使用互動式形式對使用者提出的問題提供詳細且準确的回答、已成為搜尋引擎的有力競争者、平衡了類似人類的輸出與偏差等；其次從底層技術、GPTs發展路徑兩個方面闡述了ChatGPT發展的技術路線；然後分别從科學寫作、教育領域、醫療領域、其他領域四個角度展開對ChatGPT應用場景的介紹，全面評估了ChatGPT應用在新場景中的優勢，分析表明ChatGPT已經在不同的學科領域展現出強大的創造能力；最後，從技術限制、濫用、倫理問題、監管政策的角度多元地分析ChatGPT面臨的挑戰，比如沒有情感和主觀經驗、有可能洩露個人隐私和機密資訊、決策過程缺乏透明度等問題，并從不同角度展望未來ChatGPT的發展與改進方向。

在技術層面，将ChatGPT與其他AIGC工具相結合，将有希望打造全能型的ChatGPT；而在非技術層面，通用人工智能（如ChatGPT）在未來有可能對高薪工作構成更大威脅，相關的研究證明ChatGPT已經開發出具有自己意識和意圖的能力，進而對人類可能造成危害，是以對通用人工智能的讨論和發展在未來是有很大的不确定性的。

喬羽

A Complete Survey on Generative AI (AIGC):

is ChatGPT from GPT-4 to GPT-5 All You Need?

AIGC是一個快速發展的領域，具有很多潛在的應用，在帶來巨大發展機遇的同時也面臨着諸多的挑戰與問題。喬羽首先從内容需要、技術條件兩個角度分析了AIGC變得頗受歡迎的原因并具體分析了AIGC背後的基本技術；其次，從文本生成、圖像生成、視訊生成等方面具體闡述了AIGC能夠解決的特殊化任務，在各類生成任務比如文本生成。近期的工作可以基于自監督模型先在大規模資料集上進行預訓練，然後在小的資料上進行微調，該方法可以應用于低資源語言，處理不同的說話風格或噪音條件，以及轉錄多種語言。他從教育、遊戲和元宇宙、媒體、廣告、電影、音樂等多個領域展示了AIGC在生活工作中的應用場景及巨大作用，AIGC不僅促進了内容形式的多元化，為觀衆提供了更好的體驗，也讓相關從業者的工作更加高效，比如使用AI工具生成多樣化的新聞素材，使用寫稿機器人提升效率。最後，喬羽也提出了在當下AIGC面臨的幾大問題，如缺乏可解釋性、道德和法律問題、特定領域的技術挑戰、需要被更靈活地控制等，這都需要在未來被更多的研究者關注和解決。

機器翻譯會自動将文本從一種語言翻譯成另一種語言。開創性工作seq2seq首将encoder-decoder RNN結構應用于機器翻譯。當句子變長時，Seq2seq的性能會變差，為此提出了一種注意力機制來幫助翻譯長句子并增加單詞對齊。現在流行的方法是采用預訓練的語言模型，比如BERT和GPT，這兩種方法能夠大大加快文本翻譯的速率，并且在準确性方面有較好的保證。