當GPT-4學會看圖文，一場生産力革命已勢不可擋

機器之心原創

作者：張倩

「太卷了！」

在經曆了

GPT-4

和微軟

Microsoft 365 Copilot

的連續轟炸後，相信很多人都有這樣的感想。

與 GPT-3.5 相比，GPT-4 在很多方面都實作了大幅提升，比如在模拟律師考試中，它從原來的倒數 10% 進化到了正數 10%。當然，普通人對于這些專業考試可能沒什麼概念。但如果給你看一張圖，你就明白它的提升有多麼恐怖了：

圖源：清華大學計算機系教授唐傑微網誌。連結：https://m.weibo.cn/detail/4880331053992765

這是一道實體題，GPT-4 被要求根據圖文逐漸解題，這是 GPT-3.5（此處指更新之前的 ChatGPT 所依賴的模型）所不具備的能力。一方面，GPT-3.5 隻被訓練用來了解文字，題中的圖它是看不懂的。另一方面，GPT-3.5 的解題能力也很薄弱，雞兔同籠都能把它難倒。但這一次，兩個問題似乎都被解決得非常漂亮。

當所有人都以為這就是王炸的時候，微軟又放出了一個重磅炸彈：GPT-4 這些能力已經被整合到一個名為 Microsoft 365 Copilot 的新應用中。憑借強大的圖文處理能力，Microsoft 365 Copilot 不僅可以幫你寫各種文檔，還能輕松地将文檔轉換成 PPT、将 Excel 資料自動總結成圖表……

從技術亮相到産品落地，OpenAI 和微軟隻給了大衆兩天的反應時間。似乎在一夜之間，一場新的生産力革命已經到來。

由于變革來得太快，學界和業界都或多或少地處于一種迷茫和「FOMO（fear of missing out，怕錯過）」的狀态。目前，所有人都想知道一個答案：在這場浪潮中，我們能做些什麼？有哪些機會可以抓住？而從微軟釋出的 demo 中，我們可以找到一個清晰的突破口：圖文智能處理。

在現實場景中，各行各業的很多工作都和圖文處理有關系，比如把非結構化資料整理成圖表、根據圖表寫報告、從海量的圖文資訊中抽取出有用資訊等等。也正因如此，這場革命的影響可能遠比很多人想象得還要深遠。OpenAI 和沃頓商學院最近釋出的一篇

重磅論文

對這種影響做了預測：約 80% 的美國勞動力至少有 10% 的工作任務可能會受到 GPT 引入的影響，而約 19% 的勞工可能會看到至少 50% 的任務受到影響。可以預見，這裡面很大一部分工作是涉及圖文智能的。

在這樣一個切入點上，哪些研究工作或工程努力是值得探索的呢？在近期中國圖象圖形學學會（CSIG）主辦，合合資訊、CSIG 文檔圖像分析與識别專業委員會聯合承辦的 CSIG 企業行活動中，來自學界和業界的多位研究者圍繞「圖文智能處理技術與多場景應用技術」展開了深入探讨，或許能給關注圖文智能處理領域的研究者、從業者提供一些啟發。

處理圖文，從做好底層視覺開始

前面提到，GPT-4 的圖文處理能力是非常令人震撼的。除了上面那個實體題，OpenAI 的技術報告裡還舉了其他例子，比如讓 GPT-4 讀論文圖：

不過，要想讓這樣的技術廣泛落地，可能還有很多基礎工作要做，底層視覺便是其中之一。

底層視覺的特征非常明顯：輸入是圖像，輸出也是圖像。圖像預處理、濾波、恢複和增強等都屬于這一範疇。

「底層視覺的理論和方法在衆多領域都有着廣泛的應用，如手機、醫療圖像分析、安防監控等。重視圖像、視訊内容品質的企業、機構不能不關注底層視覺方向的研究。如果底層視覺沒做好，很多 high-level 視覺系統（如檢測、識别、了解）無法真正落地。」合合資訊圖像算法研發總監郭豐俊在 CSIG 企業行活動分享中表示。

這句話要怎麼了解？我們可以看一些例子：

和 OpenAI、微軟 demo 中所展示的理想情況不同，現實世界的圖文總是以充滿挑戰的形式存在，比如存在形變、陰影、摩爾紋，這會加大後續識别、了解等工作的難度。郭豐俊團隊的目标就是在初始階段把這些問題解決好。

為此，他們将這項任務分成了幾個子產品，包括感興趣區域（RoI）的提取、形變矯正、圖像恢複（如去除陰影、摩爾紋）、品質增強（如增強銳化、清晰度）等。

這些技術組合起來可以打造一些非常有意思的應用。經過多年的摸索，這些子產品已經實作了相當不錯的效果，相關技術已被應用于公司旗下的智能文字識别産品「掃描全能王」裡。

從字到表，再到篇章，一步步讀懂圖文

圖像處理好之後，接下來的工作就是識别上面的圖文内容。這也是一個非常細緻的工作，甚至可能以「字」為機關。

在很多現實場景中，字不一定會以規範的印刷體的形式出現，這就給字的識别帶來了挑戰。

以教育場景為例。假設你是一位老師，你肯定想讓 AI 直接幫你把學生作業全部批改好，同時把學生對各部分知識的掌握情況彙總一下，最好還能把錯題、錯别字及改正建議給出來。中國科學技術大學語音及語言資訊處理國家工程實驗室副教授杜俊就在做這方面的工作。

具體來說，他們建立了一套基于部首的漢字識别、生成與評測系統，因為與整字模組化相比，部首的組合要少得多。其中，識别與生成是聯合優化的，這有點像學生學習時識字與寫字互相強化的過程。評測的工作以往大多聚焦在文法層面，而杜俊的團隊設計了一種可以直接從圖像中找出錯别字并詳細說明錯誤之處的方法。這種方法在智能閱卷等場景中将非常有用。

文字之外，表格的識别與處理其實也是一大難點，因為你不僅要識别裡面的内容，還要理清這些内容之間的結構關系，而且有些表可能連線框都沒有。為此，杜俊團隊設計了一種「先分割，後合并」的方法，即先把表格圖像拆分成一系列基礎網格，然後再通過合并的方式做進一步糾正。

杜俊團隊「先分割，後合并」的表格識别方法。

當然，所有這些工作最後都會在篇章級别的文檔結構化和了解方面發揮作用。在現實環境中，模型所面臨的文檔大多不止一頁（比如一篇論文）。在這一方向，杜俊團隊的工作聚焦于跨頁文檔要素分類、跨頁文檔結構恢複等。不過，這些方法在多版式的場景下還存在局限性。

大模型、多模态、世界模型…… 未來路在何方？

聊到篇章級别的圖文處理與了解，其實我們離 GPT-4 就不遠了。「多模态的 GPT-4 出來後，我們也在想能不能在這些方面做些事情」，杜俊在活動現場說到。相信很多圖文處理領域的研究者或從業者都有此想法。

一直以來，GPT 系列模型的目标都是努力提高通用性，最終實作通用人工智能（AGI）。此次 GPT-4 所展現出的強大的圖文了解能力是這種通用能力的重要組成部分。要想做出一個擁有類似能力的模型，OpenAI 給出了一些借鑒，也留下了不少謎團和未解決的問題。

首先，GPT-4 的成功表明，大模型 + 多模态的做法是可行的。但大模型要研究哪些問題，多模态的誇張算力需求如何解決都是擺在研究者眼前的挑戰。

對于第一個問題，複旦大學計算機學院教授邱錫鵬給出了一些值得參考的方向。根據 OpenAI 之前透露的一些資訊，我們知道 ChatGPT 離不開幾項關鍵技術，包括情景學習（in-context learning）、思維鍊（chain of thought）和指令學習（learn from instructions）等。邱錫鵬在分享中指出，這幾個方向都還有很多待探讨的問題，比如這些能力從哪裡來、如何繼續提高、如何利用它們去改造已有的學習範式等。此外，他還分享了對話式大型語言模型建構時應該考慮的能力以及将這些模型與現實世界對齊可以考慮的研究方向。

對于第二個問題，廈門大學南強特聘教授紀榮嵘貢獻了一個重要思路。他認為，語言和視覺存在着天然的聯系，二者的聯合學習已經是大勢所趨。但面對這波浪潮，任何一個高校或實驗室的力量都顯得微不足道。是以他現在從自己就職的廈大開始，嘗試說服研究人員将算力整合起來，形成一個網絡去做多模态大模型。其實，在前段時間的一個活動上，專注于 AI for Science 的

鄂維南

院士也發表了類似看法，希望各界「敢于在原始創新方向上集中資源」。

不過，GPT-4 所走的路就一定會通向通用人工智能嗎？對此，有些研究者是存疑的，圖靈獎得主 Yann LeCun 便是其中之一。他認為，目前的這些大模型對于資料、算力的需求大得驚人，但學習效率卻很低（比如自動駕駛汽車）。是以，他創立了一套名為「世界模型」（即世界如何運作的内部模型）的理論，認為學習世界模型（可以了解為為真實世界跑個模拟）可能是實作 AGI 的關鍵。在活動現場，上海交通大學教授楊小康分享了他們在這個方向上的工作。具體來說，他的團隊着眼于視覺直覺的世界模型（因為視覺直覺資訊量大），試圖把視覺、直覺以及對時間、空間的感覺模組化好。最後，他還強調了數學、實體、資訊認知與計算機學科交叉對這類研究的重要性。

「毛毛蟲從食物中提取營養，然後變成蝴蝶。人們已經提取了數十億條了解的線索，GPT-4 是人類的蝴蝶。」在 GPT-4 釋出的第二天，深度學習之父 Geoffrey Hinton 發了這樣一條推文。

目前，還沒有人能夠斷定這隻蝴蝶将掀起多大的飓風。但可以肯定的是，這還不是一隻完美的蝴蝶，整個 AGI 世界的拼圖也尚未完成。每位研究者、從業者都還有機會。

當GPT-4學會看圖文，一場生産力革命已勢不可擋

繼續閱讀

微軟尋求用ChatGPT改造數字廣告業務

裁員一萬轉身擁抱AI，Meta又要改名了

微軟谷歌要用AI重塑業務，馬斯克稱AI會摧毀人類……聊聊AI那點事兒

微軟Azure OpenAI國際版內建ChatGPT等五種大模型服務

三星“背刺”谷歌

馬斯克威脅要起訴微軟，稱後者“非法使用推特資料進行AI訓練”

繼續迎戰微軟！谷歌生成式AI Bard可以程式設計和調試代碼錯誤了

必應聊天改進報告：正确顯示數學公式，減少非正常結束對話情況

蓋茨：AI将颠覆教育，但短期内“失敗将遠多于成功”

《紅霞島》首發翻車遭差評轟炸 Xbox總裁道歉

計算半徑為5.3的圓的周長和面積

GPT-4版Windows炸場！整個系統就是一個對話機器人，微軟開建AI全宇宙

遊戲資訊：微軟志在必得，為并購與索尼任天堂世紀大和解！

華為又火了，手機重回前五；首個室溫超導掀全球熱度｜科技早報

索尼港服PS+一二三檔會員正式漲價，國服年會員跟風已漲至309元

微軟今日正式推出XGP Core服務：取代金會員，提供迷你遊戲庫