天天看點

多模态功能上線,OpenAI讓ChatGPT能說話、會看圖

作者:三易生活

此前谷歌無疑是AI領域無可争議的領頭羊,它開源的深度學習架構TensorFlow更堪稱是AI世界的基石,但是這一切卻在2022年秋季戛然而止,OpenAI的ChatGPT橫空出世讓谷歌很快就黯然失色。并且外界沒有想到的是,就在一年後,OpenAI又一次“截胡”谷歌。

日前在毫無征兆的情況下,OpenAI釋出了題為《ChatGPT現在能看、能聽、能說》的公告,宣布将在未來兩周内面向Plus和企業使用者推出ChatGPT的語音和圖像功能。

多模态功能上線,OpenAI讓ChatGPT能說話、會看圖

根據OpenAI方面透露的資訊顯示,ChatGPT的多模态版本在10個月前就已經訓練好了。那麼為什麼此前一直藏着掖着,現在卻突然釋出呢?外界推測,或許是因為不能讓谷歌搶了先。

最近這段時間,業内風傳谷歌方面即将釋出多模态模型Gemini,并且它可能會成為AI行業遊戲規則的改變者。按照桑達爾·皮查伊的說法,Gemini內建了多種技術,支援同時輸出文本和圖像,還可以使用工具和API。是以在外界看來,面對來勢洶洶的谷歌,OpenAI方面自然要用實際行動來還以顔色。

多模态功能上線,OpenAI讓ChatGPT能說話、會看圖

是以在這一輪的更新中,ChatGPT不僅僅能夠了解使用者輸入的文字,甚至還擁有了識别并了解語音、圖像資訊的能力。語音識别能力很簡單,因為該功能使得ChatGPT獲得了類似Siri、小愛同學的能力,并将提供五種不同的語音供使用者選擇,同時支援語音音頻生成文本、将播客内容翻譯成其他語言等功能。其實早在今年5月,ChatGPT已經支援了語音轉文本功能,是以現在更進一步上線文本轉語音功能并不那麼令人意外。

至于ChatGPT讀取圖像的能力,則早在今年春季OpenAI示範GPT-4時就已經被曝光。彼時OpenAI聯合創始人Greg Brockman在紙上畫出了他構想的網站草稿示意圖,并拍了一張照片上傳給GPT-4,後者立刻生成了這個網站的HTML代碼。隻不過這一能力在當時,被GPT-4更加耀眼的推理判斷能力所掩蓋。

多模态功能上線,OpenAI讓ChatGPT能說話、會看圖

盡管看起來OpenAI為ChatGPT賦予的這兩個新能力似乎有些平平無奇,但實際上它們會讓ChatGPT的體驗更上一層樓。

先來說說ChatGPT能聽懂使用者說什麼,并直接用語音與使用者對話這個功能,據悉OpenAI聯手專業配音演員為ChatGPT提供了Juniper、Sky、Cove、Ember和Breeze五種不同的合成聲音。其實ChatGPT的語音能力确實沒有出人意料,是以它的本質還是語音合成TTS(Text-to-Speech)。

在經過十餘年的發展後,如今的TTS技術其實已經相當成熟,AI會将輸入的文本内容先切分詞語、分割句子、标注語音語調,進而确定文本結構和語義資訊,再結合語音合成模型,來生成包括音高、音量、語速、韻律在内的聲學模型,最後加入波形合成就讓AI能說話了。而ChatGPT的優勢,在于它可以進行自然流暢的對話,幾乎能模仿人類對話的方式,這就會讓使用者與它的對話有一種和人類、而非機器,隔着螢幕交流的體驗。

多模态功能上線,OpenAI讓ChatGPT能說話、會看圖

如果說語音能力讓ChatGPT更像“人”,那麼讀取圖像的能力就可以說是此次ChatGPT多模态能力中最讓人驚喜的部分了。此前,OpenAI在GPT-4上展示從草稿到網站的功能被稱為“代碼解釋器”(後改名為進階資料分析),但其面向的場景極為有限。而如今ChatGPT的圖像讀取能力則更加貼近使用者的日常生活,畢竟随便一拍的照片就能得到ChatGPT的回應。

根據OpenAI方面給出的示例,使用者現在可以拍一張冰箱的照片,然後讓ChatGPT來推薦菜單;在旅行時拍一張地标的照片,讓ChatGPT來講述這處景點的有趣之處;還能拍一張數學題的照片,讓ChatGPT來解答;更可以在炒股時拍一張K線圖,讓ChatGPT來替你看盤。但值得一提的是,OpenAI也主動對ChatGPT的圖像讀取能力進行了限制。

多模态功能上線,OpenAI讓ChatGPT能說話、會看圖

如果想要憑借一張電影的截圖來讓ChatGPT追溯電影的出處,ChatGPT是不會理你的,如果想要用一張名人的照片來讓ChatGPT評價這個人,它也會拒絕。簡單來說,ChatGPT會拒絕一切可能在法律和倫理上引發風險的問題。其實這也很好了解,畢竟正處于風口浪尖上的OpenAI,确實需要愛惜羽毛以避免陷入更多的漩渦中。

在已經收到更新的使用者測試中,ChatGPT的圖像讀取并非是傳統的“以圖搜圖”。有網友使用Midjourney現場生成的圖檔,但ChatGPT依然能夠準确辨識這張圖檔的内容,這也就意味着ChatGPT是在真正意義上擁有了了解圖像的能力。當然,ChatGPT的圖像讀取功能并非萬能,OpenAI方面就在相關論文中指出,ChatGPT會在空間感、多個圖層混合、上下文推理、遮擋紋理等場景産生“幻覺”。

多模态功能上線,OpenAI讓ChatGPT能說話、會看圖

如果僅僅隻是這樣,ChatGPT的圖像讀取能力可能并不會讓人特别興奮,它真正的“王炸”在于識别驗證碼。現在許多使用者對于驗證碼厭煩透頂,這顯然已經是不争的事實,面對各種稀奇古怪的驗證碼,特别是諸如12306驗證碼識圖這種讓機器束手無策、更難倒了許多使用者的情況,未來也完全可以讓ChatGPT代勞。隻不過,這一技術也會帶來一定的弊端。

要知道,驗證碼這一如今在網際網路上被廣泛使用的技術,其實就是為了區分人類和機器的操作而誕生。ChatGPT能夠準确識别驗證碼,就等于動搖了整個驗證碼體系。畢竟驗證碼作為一個反向的“圖靈測試”,确實在一定程度上隔絕了機器人的侵擾。一旦ChatGPT辨識驗證碼的能力被黑産應用,或許X、Instagram、微網誌、知乎等社交平台的機器人恐怕就會更加猖獗。

或許,這就是新技術所帶來的陣痛吧。

繼續閱讀