天天看點

從人機互動角度聊聊ChatGPT-4o

作者:人人都是産品經理

這幾天AI圈子像是過節一樣,顯示周一晚上OpenAI的釋出會,釋出的産品和之前的消息相差不多;然後又是昨晚上Google IO大會,也釋出了新的大模型産品。這篇文章,我們把焦點放在GPT-4o上。

GPT-4o本次共更新了7項内容,作者選擇了4個要點,從人機互動的角度和我們分析,看看和大家的了解有那些不一樣。

從人機互動角度聊聊ChatGPT-4o

前天半夜ChatGPT-4o的釋出會應該未來幾天AI圈子最有熱度的話題了,其中幾條更新其實可以從人機互動的角度解讀一下。

首先我們還是先來看看GPT-4o更新的主要内容(隻關注互動角度解讀可跳過):

  1. 多模态互動能力:ChatGPT 4.0支援圖像和文本輸入,并能輸出文本,具備多模态互動的能力。這意味着它可以了解圖像内容,并生成字幕、分類和分析等操作。
  2. 自然語言了解能力提升:在自然語言了解方面有顯著提升,這使得ChatGPT 4.0能夠更好地了解使用者的輸入,并根據使用者的語境提供更準确的回答。
  3. 上下文長度增加:ChatGPT 4.0的上下文長度得到增加,這使得模型在處理長篇對話時表現更佳,能更好地了解整個對話的背景和上下文,進而給出更準确和恰當的回答。
  4. 資料分析及可視化作圖功能:通過直接打通相關功能子產品,ChatGPT 4.0能夠利用自然語言互動,根據知識庫、線上檢索到的資料進行資料分析及可視化作圖。
  5. DALL·E 3.0功能:ChatGPT 4.0引入了DALL·E 3.0功能,允許使用者上傳圖檔并在其上進行查詢,可以直接從必應浏覽,并直接使用ChatGPT中的DALL·E 3.0功能,在圖檔上進行創作。
  6. 模型架構和訓練資料的進步:開發者在這個版本中引入了更先進的模型架構、更多的訓練資料和更多的語言資料,将聊天機器人的性能提升到了一個新的高度。
  7. API開放和價格優惠:新版本GPT-4 Turbo支援128k上下文,知識截止更新到2023年4月,視覺能力、DALL·E3,文字轉語音TTS等功能全都對API開放,同時API價格還打了3-5折。

這其中的第1、2、3、5點都可以從人機互動的角度聊一聊。

第1點:多模态互動能力

今天作者也看了一些寫GPT-4o更新的文章,有些人僅僅把多模态互動能力了解成了我們可以不僅僅使用文字和GPT交流了,這麼了解實在太小看多模态互動能力了。

要知道,人類通過文字表達和聲音表達,即使是完全同樣的文本。所包含的資訊也有很大的差别。文字隻是靜态的資訊,而聲音包含更多元度的資訊。例如語音、語調、音量、語速、停頓、重音等等。

同樣是【你好】,文字隻能表達1種含義,而聲音可能能表達4-6種。對于程式來說,多模态互動意味着從更多來源獲得資訊(指視、聽、文、環境等來源)。也意味着獲得更多資訊(例如剛剛所說的聲音次元的語音、語調、音量、語速、停頓、重音)。

從多來源獲得資訊并獲得更多資訊,GPT就可以縮短推理、判斷等過程,更快速的給與使用者回複。這就像是使用者自動的把提問描述的更詳細了,把自己的要求說的更清楚了,如此一來GPT給與回報的速度和品質自然會有對應的提升。(當然同樣也有模型方面帶來的提升)

除了聲音之外,GPT-4o的多模态互動能力還包括視覺了解能力,例如能識别圖像中的人臉,分析性别、年齡、表情等資訊。這同樣是我們剛剛所說的從更多來源獲得資訊以及獲得更多資訊。

以上是多模态互動能力中,人向GPT輸入過程中的意義,那麼對于人機互動的另一部分:GPT向人輸出的階段,同樣意義非凡。

GPT-4o可以根據需要以最合适的模态進行回應,在之前GPT隻能以文字進行回複,但之後則可以是文字、聲音、圖像。聲音模态的意義是支援更多交流場景以及對無障礙互動的包容。圖像的意義就不用多說了吧,無論是取代了指令行界面的圖形化界面,還是你晉升答辯時準備的PPT,都能展現圖像相對于文字的優勢。

第2點:自然語言了解能力提升

如果說多模态互動能力代表了輸入和輸出這兩個階段。那自然語言了解能力就代表了【處理】這個階段。當GPT從多來源獲得資訊後,下一步就是了解這些資訊,了解過後才能給出回複資訊。自然語言了解能力的提升意味着GPT-4o對使用者意圖的識别更加準确了。那麼自然後續回複的内容、回複的模态都會有更高品質的結果。

第3點:上下文長度增加

這一點的意義首先展現在長篇對話上,我們可以類比人與人之間的交流方式,兩個相識了多年的朋友,可能他們一句很短的對話就可以包含非常大的資訊量,例如:

張三對李四說:你上回那個設計方案真是太牛了!

這句話本身沒提及但張三和李四都能了解的資訊可能有:

如果想清晰的表達以上的1、2、3包含的具體資訊,可能需要上千字或十分鐘的對話才能說清楚,但由于這些資訊都已經被儲存在人的記憶中,兩人在交流的過程中就可以省略很多詳細的描述和前置條件,用一句話表達大量資訊。

對于GPT-4o而言,可記憶的上下文長度增加就意味着他變成了一個對你更熟悉的程式,是以當使用者與GPT-4o交流時,就可以像張三和李四交流那樣使用更少的資訊交流更多的資訊,同時能夠保障交流品質。

要注意的是,剛剛我使用了對你更熟悉的程式這樣的描述,而不是對你更熟悉的朋友這樣的描述,這裡面關鍵的差別有兩方面,第一方面是所謂的上下文長度,可以類比人與人相識的時間和交流的資訊總量、了解程度。第二方面是

我們可以暢想一下,如果現在的新生代兒童從很小的年齡就開始使用AI工具,并且AI工具附着在便攜式智能裝置上,以多模态與使用者同時感覺周圍環境,再加之GPT-4o的可貫穿數十年的可記憶上下文長度。這樣的AI可能會成為使用者最熟悉的朋友,甚至遠超父母、家人。如果再給與這個AI相應的硬體,那幾乎可視為智械族了~

第5點:DALL·E 3.0功能

文生圖能力以及對圖檔的智能編輯能力已經是很多其他産品早已具備的了,不過GPT-4o這次更新幫助使用者節省了之前都是由使用者操作的不同資料類型轉化的操作,改為由GPT-4o代替,對使用者來說 同樣是操作效率的提升。就像我們之前如果在某張圖檔上看到了一個新概念,那可能需要用打字或ocr的方式将圖檔轉化成文字再繼續使用。而GPT-4o以後将為使用者省掉這個過程。

其他的像創意工作、廣告制作、産品設計、教育示範等方面的意義就不再多說,市面上已經有很多類似的産品了。

在整個釋出會之中,還有一個令使用者們wow的點是GPT-4o的響應時間僅為232毫秒(平均320毫秒),幾乎達到了與人類實時對話的水準,顯著優于前代模型的延遲表現。

其實我們可以從以上的解讀中思考一下,為什麼GPT-4o的響應時間得到了如此大的提升?

  • 第1點:意味着GPT-4o擷取資訊的速度更快了,資訊量更多了。
  • 第2點:意味着GPT-4o了解這些資訊更快了
  • 第3點:意味着GPT能從上下文獲得更多使用者沒有直接表達的資訊

綜合以上3點提示再加上本身模型能力的提升,GPT-4o的響應時間達到232毫秒也就容易了解了。

當GPT-4o的響應時間達到了人類與人類對話的水準時,很多應用場景的想象空間就更大了。具體作者想到了如下幾方面:

  1. 實時互動性增強:這樣的響應速度使得人機對話接近無縫對接,幾乎消除了傳統人工智能助手在處理請求和提供回複之間的感覺延遲。使用者在與GPT-4o交流時,會感覺像是在與另一個真實人類進行自然流暢的對話,可以大大提升了互動的真實感和滿意度。
  2. 使用者體驗優化:更快的響應時間減少了使用者等待回報的心理負擔,使得交流過程更加舒适和高效。這對于需要快速回報的場景尤為重要,比如緊急情況下的資訊查詢、即時決策支援或者快節奏的商業溝通。并且更加與人與人的交流相似了,想象一下我們在和朋友聊天的時候,一般不會等個3秒再說話吧?
  3. 應用場景拓展:由于能夠實時處理音頻、視覺和文本資訊,GPT-4o打開了通往更多應用場景的大門。例如,在客戶服務、教育輔導、遠端醫療、虛拟助理、遊戲互動等領域,實時互動能力都是提升服務品質和效率的關鍵。

專欄作家

杜昭,微信公衆号:AI與使用者體驗,人人都是産品經理專欄作者,實戰派設計師,目前在某手機公司負責手機OS互動設計,所負責産品覆寫使用者數億,主要研究AI與人機互動設計的融合及人因學對使用者體驗的影響。

本文原創釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協定。

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀