天天看點

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

作者:報告派

報告出品方:申萬宏源

以下為報告原文節選

------

1.海外 AI 應用更新,集中展現多模态能力

近期,海外 AI 應用催化較多:1)Open AI 更新了圖檔、語音多模态能力,并即将應用在最新 ChatGPT 中;2)微軟宣布本月底更新 AI Copilot 系統,全面內建 Open AI 模型能力。

1.1 Open AI 在 ChatGPT 中更新了圖檔、語音多模态能力

9 月 25 日,Open AI 宣布即将釋出新的多模态功能,包括圖像讀取與了解、語音對話和語音生成。ChatGPT 即将在兩周内對 Plus 使用者與企業使用者開放一系列新功能,其中圖文能力(如下圖)對全平台開放,與 Chatgpt 語音對話的能力僅對 ios 及安卓用戶端開放。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

對話能力:通過語音直接對 ChatGPT 對話,同時 GPT 可以直接語音回複客戶,可選 5種定制聲音,支援 ios 和 Android 移動應用使用;圖像-文本能力:ChatGPT 除了文字之外,可以了解客戶上傳的圖檔資訊。GPT 能夠了解照片、圖檔截圖、包含圖像的文檔等。客戶可以上傳一張或者多張圖檔給系統,甚至可以用畫筆标注重點内容,讓系統讀取了解,可以用于輔導學生作業、搜尋日常食譜等各個方向。

語音和圖像提供了更多在生活中使用 ChatGPT 的方式。例如在旅行時拍攝地标的照片,并就其進行實時對話問答;拍攝冰箱和食品儲藏室的照片,以确定晚餐的食物(并詢問後續問題以擷取分步食譜);通過直接拍攝家庭作業照片來獲得解答,或分析與工作相關的資料的複雜圖表。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

此前,OPEN AI 也更新了 DALL・E 3 模型能力。新的 DALL·E 模型與 ChatGPT 能力合并,畫作更加細膩,同時可以不用 prompt,準确還原細節,并且為圖檔配上文字。Plus和企業版使用者通過文本就能直接在 ChatGPT 中生成各種類型圖檔,不僅加強提示詞的生成圖像體驗,而且增強模型了解使用者指令的能力,圖像效果也有提升。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

更好的掌握使用者提出的每一個描述。例如上圖,“享受夜間生活的行人”“滿月的光輝”“蒸汽朋克電話”“和怒氣沖沖的老商人讨價還價”等多個較難以展現的細節描述,都展現在圖畫中。

同時可以對生成内容進行多輪自然語言對話編輯。例如讓 DALL-E 模型生成多個刺猬圖檔,選出其中一隻取名為 Larry,并要求模型生成更多 Larry 圖檔,甚至可以詢問模型“為什麼 Larry 這麼可愛”,模型可以做出文字解答,期間完成了 5 輪對話和修改。

1.2 GPT-4V 的使用方法、工作模式、任務能力

微軟在 Open AI 釋出後,公布了 GPT-4V 詳細測評《 The Dawn of LMMs:Preliminary Explorations with GPT-4V(ision)》。

5 種使用方式:輸入圖像(images)、子圖像(sub-images)、文本(texts)、場景文本(scene texts)和視覺指針(visual pointers)。即同時支援純圖像輸入、也支援圖像、文本互動輸入、同時也可以對圖檔進行指向性提示(例如畫箭頭、畫圈)。基本上涵蓋了圖-文多模态的每個場景。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

3 種支援的能力:指令遵循(instruction following)、思維鍊(chain-of-thoughts)、上下文少樣本學習(in-context few-shot learning)。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文
計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

此外,微軟也展示了 GPT-4V 的多項基本能力:1)視覺-語言能力;2)與人類的互動:視覺參考提示;3)時間和視訊了解;4)其它,包括智商測試、情商測試,以及創新場景應用。

1)視覺-語言能力:除常見的人物、地标等識别外,GPT-4V 還可以了解人和物體間的關系,計數、生成字幕和描述,解釋笑話,回答科學問題,根據手寫數學方程生成 LaTeX代碼等。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

2)與人類的互動:視覺參考提示。在與多模态系統的人機互動中,指向特定空間位置是一項基本能力,例如進行基于視覺的對話。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文
計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

3)時間和視訊了解:多圖像序列、視訊了解、基于時間了解的視覺參考提示。輸入視訊的幾個關鍵幀,可以了解事件前後關聯。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

4)視覺推理、智商、情商測試等,此外 GPT-4v 還可以用于工業、醫藥、汽車保險、具身智能、GUI 互動等。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文
計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

整體來看,GPT-4V:1)展現出強大的混合輸入能力,并且可以較好的支援 LLM 中觀察到的 test-time 技術,包括指令跟随、思維鍊、上下文少樣本學習等;

2)在不同領域人物中完成度和通用性都較強,包括開放世界視覺了解、視覺描述、多模态知識、常識、場景文本了解、文檔推理、編碼、時間推理、抽象推理、情感了解等;

3)像素級編輯能力擴充了 4V 的使用邊界;

4)4V 出現後人工智能應用空間進一步打開,包括工業、醫療、金融、具身智能等多個産品都看到應用可能。

1.3 微軟 AI Copilot 系統更新,Office Copilot 辦公能力即将釋出

AI Copilot 9 月 26 日起釋出,Office Copilot 11 月 1 日起大範圍開放。1)9 月 21日,微軟更新AI Copilot 功能,并宣布Copilot 功能将自9 月26 日起,随着更新的 Windows11 以初期版本形式免費更新,支援在多個 APP 和裝置運作;2)Office Copilot 将于 11月 1 日開始大範圍開放,此前 7 月,微軟曾表示将把 Copilot 的價格定在每人每月 30 美元,這是傳統 Office 365 訂閱價格之外的額外費用。

這次 Win 11 版本更新了超過 150 個新功能,新版本中 AI Copilot 既可以始終顯示在工作列上,也可以通過 Win+C 的快捷鍵啟動。新功能包括為 Windows PC 帶來Copilot 功能以及畫圖、照片、Clipchamp 等應用。必應将增加對 OpenAI 最新 DALL・E 3 模型的支援。

我們認為,本次釋出的 AI Copilot/Office Copilot 亮點包括:

1、圖像能力顯著提升:正式加入 DALL・E 3 模型,新增圖文生成、圖檔了解、AI編輯 P 圖等功能。

此前 Open AI 釋出了第三代 AI 繪圖工具 DALL・E 3,內建了 ChatGPT,使用者不需要在 prompt 上多費時間就能生成圖像。相比上一代,DALL・E 3 提供了更強的細節渲染,還可以更好地了解要求,提供更準确的圖像。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

同時微軟 必應中 也內建了 這一 AI 設 計工具 Microsoft Designer。使用者在使用Designer 可在通過拖曳、prompt 等簡單操作直接将原始畫質圖像添加到自己的設計中。

比如使用本地圖檔設計封面,并直接執行消除背景等操作,或通過 AI 創作圖檔内容對圖像進行延申。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

此外,基于 DALL・E 3,微軟更新了 Bing 搜尋引擎和 Edge 浏覽器的 AI 功能。例如在購物中,以圖識圖搜尋商品細節,根據網絡上的買家評論,結合優惠券和促銷打折碼幫忙尋找合适的産品和最優惠價格。

同時,微軟通過加密方法向 Bing 中所有 AIGC 圖像添加“内容憑證”(Content Credentials)。即一種不可見的數字水印,包括最初的建立時間和日期。

2、AI Copilot 更新了多端和團隊協同能力。

AI Copilot 支援下,Outlook for Windows 可連接配接到谷歌、蘋果等不同公司的多個(雲端)賬戶。檔案管理器 File Explorer 的首頁、位址欄和搜尋框能直接通路重要且相關的内容,無需打開檔案便可進行協作。備份 Backup 功能可将大多數檔案、應用程式和個性化設定等從一台 Windows 電腦無縫轉移到另一台上。

Copilot 還可從使用者手機(例如短信)中擷取内容,導入 Win11 系統。假設使用者要給家人發送航班時刻表,Copilot 會根據要求将資料導入電腦桌面上,無需拿出手機就可完成資訊發送。

3、集合展示了 word、excel、ppt、OneNote 中的 copilot 能力。

本次釋出會展示的辦公軟體插件能力與此前多次釋出并無較大差異。仍然包括:Word:文檔摘要、重寫内容、調整語氣、從副本中生成表格等。

Excel:通過自然語言 Prompt 實作資料可視化、添加計算公式等。

OneNote:對 note 提出較為綜合的問題、生成摘要、文章快速編輯等。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

基于以上,本次增加了辦公軟體 AI 助手功能:Microsoft 365 Chat。可梳理工作中的各個資料領域資訊,包括電子郵件、會議、聊天記錄、文檔以及網絡資訊。Microsoft 365Copilot 企業版将提取使用者的企業資料來幫助撰寫電子郵件、規劃活動等。

我們認為,本次釋出會相對超預期的點包括:1)展示了 AI 能力在 Windows 作業系統中的全局管理能力;2)融合圖檔大模型 DALL・E 3 基礎,從純文字能力更新到文本-圖檔多模态,同時圖檔 AIGC 水準遠超前一代;3)明确 Win11 更新免費,可以使更多人體驗 AI Copilot;4)對 Office Copilot 釋出給定明确時間。

但同時,我們認為目前釋出也存在争議點,包括:1)Office Copilot 展現出的能力、尤其語言文字了解能力相比于 3 月釋出并無顯著優勢;2)而 Office Copilot 定價 30 美金/月,能否展現增量價值有待商榷;2)部分 Win 系統中通過 AI 操作調用需要大量 Prompt,便捷性需要驗證。

2.多模态原了解析:從文生圖到圖生文

2022 年後,随着 Transformer 技術的發展,Transformer 也使用在了 CV 領域,并形成了 Vision Transformer 技術。2023 年後,基于 Transformer 的多模态大模型出現,AI 大模型應用新的空間打開。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

2.1 文生圖:最先成熟的 AIGC 應用,核心在 CLIP

DALL·E:基于 CLIP,可以按照文字描述、生成對應圖檔。DALL·E 是 OpenAI 2021年釋出的多模态-文生圖模型,DALL·E 基于 GPT-3,經過文本-圖像資料集訓練,有 120億參數。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

Dall-E 一代的創新點:CLIP 形成文字和圖檔對照。

1)在文字輸入部分,仍然使用了與 GPE-3 類似的 transformer 語言模型,且參數量大幅降低。

DALL·E 有 12B 參數,相比 GPT-3 的 175B 大幅降低,該模型是在 250M 圖像-文本對的資料集上訓練的。訓練後的模型根據提供的文本生成了幾個樣本(最多 512 個),然後再由 CLIP 進行排序。

2)CLIP,暴力美學下的文本-圖像對應工具,DALL-E 的最大創新點。

CLIP(Contrastive Language-Image Pre-Training)用于将相關文本和圖像對應,背後思路簡單,Open AI 從網上爬蟲,抓取已經有過描述的文本-圖像資料集,但是資料集規模達到了 4 億。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

然後在資料集上訓練對比模型。對比模型可以給來自同一對的圖像和文本産生高相似度得分,而對不比對的文本和圖像産生低分。如下圖左對比式無監督預訓練。

計算機行業AIGC:GPT-4v如何實作強大多模态,從文生圖到圖生文

--- 報告摘錄結束 更多内容請閱讀報告原文 ---

報告合集專題一覽 X 由【報告派】定期整理更新

(特别說明:本文來源于公開資料,摘錄内容僅供參考,不構成任何投資建議,如需使用請參閱報告原文。)

精選報告來源:報告派

科技 / 電子 / 半導體 /

人工智能 | Ai産業 | Ai晶片 | 智能家居 | 智能音箱 | 智能語音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機 | 可穿戴裝置 |半導體 | 晶片産業 | 第三代半導體 | 藍牙 | 晶圓 | 功率半導體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測 | 顯示器 | LED | OLED | LED封裝 | LED晶片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費電子 | 電子FPC | 電路闆 | 內建電路 | 元宇宙 | 區塊鍊 | NFT數字藏品 | 虛拟貨币 | 比特币 | 數字貨币 | 資産管理 | 保險行業 | 保險科技 | 财産保險 |

繼續閱讀