天天看點

AIGC技術——打造更強大的人工智能

作者:林李坤

一、引言

2022年,chatgpt大型語言模型、AI繪畫、生成式AI等技術突然爆火,人工智能再一次吸引了人們的目光。而其背後的核心,便是AIGC技術。雖然争議不少,但AIGC技術背後所隐藏着的是無比龐大的市場規模,将改變各行業的現有格局。

AIGC技術——打造更強大的人工智能

“人工智能的發展”,該圖檔由必應圖像建立器制作

二、什麼是AIGC技術?

AIGC 是人工智能生成内容(Artificial Intelligence-Generated Content)的縮寫。它是繼PGC(Professionally Generated Content,專業生成内容)和UGC(User Generated Content,使用者生成内容)之後的一種新型内容創作方式。AIGC依賴于多種人工智能技術,它可以通過對已有資料進行學習以及模式識别,自動或半自動地生成文字,代碼,圖像,語音,視訊等資訊。AIGC具有的驚人的創作速度,且在多個領域如教育、傳媒、娛樂、科研等方面都能得以應用,具備着令人無法忽視的強大潛力。

三、AIGC生成内容

利用AIGC技術,人工智能已經從能了解内容發展到能自主生成内容,從生成内容上分類,其可以分為代碼、文本、圖像、音頻、視訊等類别。

1、在文本領域,其應用主要在與文本了解、新聞攥寫、劇情續寫、人機互動等具體場景。

使用AIGC技術可以快速生成文章,新聞報道甚至是詩歌、對話等内容。例如chatgpt4,openai等熱門的深度學習語言模型的實作,都離不開AIGC技術。

2、在圖像領域,AIGC不僅可以自動完成去水印、光影調節、調整分辨率等基本操作,也可以進行指定主題圖像生成、完整圖像生成、高模糊圖像修複、圖像風格轉換等操作。但目前該應用生成高品質圖像的穩定性還需提升。

3、在音頻生成上,AIGC可以摘取現有音頻特色,進行特定的視訊配音或是歌曲翻唱,甚至能支援基于旋律、音樂類型、情緒類型等生成特定的樂曲。音頻生成技術成熟,目前較廣泛地應用于語音客服、數字播報等情景。在樂曲譜寫等方面發展增速較快。

4、視訊生成與圖像生成的方式類似,支援視訊編輯、視訊剪輯和視訊自主生成。可以完成增删視訊主體、人臉替換、虛拟環境合成、生成視訊特效、自動美顔等功能。其應用範圍包括短視訊、動畫、電影等,可以極大提高視訊制作效率。

AIGC技術——打造更強大的人工智能

“機器學習”,該圖檔由必應圖像建立器制作

四、AIGC的核心技術

AIGC可以被視為一種高度智能的搜尋引擎,它能快速查詢大量的原始資料資料并進行一個淺加工的過程,最終導出結果。依據于使用者的要求,輸出更加精準的答案,降低了使用者負擔的同時創造了更高了經濟效益,這便是AIGC所帶來的。而要實作這些功能,還需依托許多人工智能技術。以下是一些較為核心的技術。

1、深度變分自編碼(Variational Autoencoder,VAE) 深度變分自編碼是一種深度生成模型,它可以學習資料的潛在表示并生成新的資料。VAE由編碼器和解碼器兩部分組成。編碼器将輸入資料映射到潛在空間中的機率分布,解碼器從潛在空間中采樣并生成新的資料。VAE通過最大化輸入資料的邊緣似然來訓練,同時最小化KL散度來限制潛在空間中的分布。

其在資料生成和語音合成方面應用價值較高。

2、生成對抗網絡(Generative Adversarial Network,簡稱 GAN) 生成對抗網絡是一種非監督式學習方法,通過兩個神經網絡互相博弈的方式進行學習。(機器學習的分支,深度學習)生成對抗網絡由一個生成網絡和一個判别網絡組成。生成網絡從潛在空間中随機取樣作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。判别網絡的輸入則為真實樣本或生成網絡的輸出,其目的是将生成網絡的輸出從真實樣本中盡可能分辨出來。而生成網絡則要盡可能地欺騙判别網絡。兩個網絡互相對抗、不斷調整參數,最終目的是使判别網絡無法判定生成網絡的輸出結果是否真實。該方法還被用于生成視訊、三維物體模型等。

3、Transformer模型(直譯為“變換器”) 原始的Transformer模型使用編碼器-解碼器(encoder–decoder)架構。編碼器由逐層疊代處理輸入的編碼層組成,而解碼器則由對編碼器的輸出執行相同操作的解碼層組成。每個編碼層的功能是确定輸入資料的哪些部分彼此相關。它将其編碼作為輸入再傳遞給下一個編碼層。每個解碼層的功能則相反,讀取被編碼的資訊并使用內建好的上下文資訊來生成輸出序列。為了實作這一點,每個編碼層和解碼層都使用了注意力機制。對于每個輸入,注意力會權衡每個其他輸入的相關性,并從中提取資訊以産生輸出。每個解碼層都包含一個額外的注意力機制,它會在從編碼層提取資訊之前先從之前解碼器的輸出中提取資訊。編碼層和解碼層都有一個前饋神經網絡用于對輸出進行額外處理,并包含殘差連接配接和層歸一化步驟。Transformer模型旨在處理自然語言等順序輸入資料,可應用于翻譯、文本摘要、文本情感分析、語言模組化、視訊了解等任務。

4、大型預訓練模型(Large Pre-trained Models) 大型預訓練模型是一種深度學習技術,其流程分為“預訓練-微調”兩個步驟。第一步是在大規模無标注資料上進行模型預訓練,學習通用的語言模式;第二步在給定自然語言處理任務的小規模有标注資料中進行模型微調,快速提升模型完成這些任務的能力,最終形成可部署應用的模型。

AIGC技術——打造更強大的人工智能

“未來城市”,該圖檔由必應圖像建立器制作

五、前景

AIGC作為人工智能的新型生成技術,絕對不是昙花一現,它已經在預示着人工智能新時代的到來。經過了2022年的預熱,AIGC在2023年迎來快速發展,其生成的内容、形式都在更加豐富,生成品質也在逐漸提高。在數字化程度較高、内容需求量大的行業領域中,展現出了巨大的市場潛力。其中,多模态生成牽引着人工智能多領域拓展應用。目前,AIGC技術的産業形态顯現出基礎層(模型服務)、中間層(2B)、應用層(2C)三層架構并持續創新發展。AIGC有望催熟商業化應用蓬勃發展,推動數字文化産業創新,推動智能AI、元宇宙發展。

參考文獻:

(1)​騰訊研究院:2023年AIGC發展趨勢報告(附下載下傳) | 網際網路資料資訊網-199IT | 中文網際網路資料研究資訊中心-199IT

(2)萬字長文:AIGC技術與應用全解析 - 知乎 (zhihu.com)

(3)AIGC_百度百科 (baidu.com)

(4)AIGC:從入門到精通 - 知乎 (zhihu.com)

(5)AIGC行業深度:應用場景、商業模式、市場規模、産業鍊及相關公司深度梳理【慧博出品】 - 知乎 (zhihu.com)

(6)https://indico.io/blog/sequence-modeling-neural-networks-part2-attention-models/

(7)http://jalammar.github.io/illustrated-transformer/

繼續閱讀