多模态功能上線，OpenAI讓ChatGPT能說話、會看圖

此前谷歌無疑是AI領域無可争議的領頭羊，它開源的深度學習架構TensorFlow更堪稱是AI世界的基石，但是這一切卻在2022年秋季戛然而止，OpenAI的ChatGPT橫空出世讓谷歌很快就黯然失色。并且外界沒有想到的是，就在一年後，OpenAI又一次“截胡”谷歌。

日前在毫無征兆的情況下，OpenAI釋出了題為《ChatGPT現在能看、能聽、能說》的公告，宣布将在未來兩周内面向Plus和企業使用者推出ChatGPT的語音和圖像功能。

根據OpenAI方面透露的資訊顯示，ChatGPT的多模态版本在10個月前就已經訓練好了。那麼為什麼此前一直藏着掖着，現在卻突然釋出呢？外界推測，或許是因為不能讓谷歌搶了先。

最近這段時間，業内風傳谷歌方面即将釋出多模态模型Gemini，并且它可能會成為AI行業遊戲規則的改變者。按照桑達爾·皮查伊的說法，Gemini內建了多種技術，支援同時輸出文本和圖像，還可以使用工具和API。是以在外界看來，面對來勢洶洶的谷歌，OpenAI方面自然要用實際行動來還以顔色。

是以在這一輪的更新中，ChatGPT不僅僅能夠了解使用者輸入的文字，甚至還擁有了識别并了解語音、圖像資訊的能力。語音識别能力很簡單，因為該功能使得ChatGPT獲得了類似Siri、小愛同學的能力，并将提供五種不同的語音供使用者選擇，同時支援語音音頻生成文本、将播客内容翻譯成其他語言等功能。其實早在今年5月，ChatGPT已經支援了語音轉文本功能，是以現在更進一步上線文本轉語音功能并不那麼令人意外。

至于ChatGPT讀取圖像的能力，則早在今年春季OpenAI示範GPT-4時就已經被曝光。彼時OpenAI聯合創始人Greg Brockman在紙上畫出了他構想的網站草稿示意圖，并拍了一張照片上傳給GPT-4，後者立刻生成了這個網站的HTML代碼。隻不過這一能力在當時，被GPT-4更加耀眼的推理判斷能力所掩蓋。

盡管看起來OpenAI為ChatGPT賦予的這兩個新能力似乎有些平平無奇，但實際上它們會讓ChatGPT的體驗更上一層樓。

先來說說ChatGPT能聽懂使用者說什麼，并直接用語音與使用者對話這個功能，據悉OpenAI聯手專業配音演員為ChatGPT提供了Juniper、Sky、Cove、Ember和Breeze五種不同的合成聲音。其實ChatGPT的語音能力确實沒有出人意料，是以它的本質還是語音合成TTS（Text-to-Speech）。

在經過十餘年的發展後，如今的TTS技術其實已經相當成熟，AI會将輸入的文本内容先切分詞語、分割句子、标注語音語調，進而确定文本結構和語義資訊，再結合語音合成模型，來生成包括音高、音量、語速、韻律在内的聲學模型，最後加入波形合成就讓AI能說話了。而ChatGPT的優勢，在于它可以進行自然流暢的對話，幾乎能模仿人類對話的方式，這就會讓使用者與它的對話有一種和人類、而非機器，隔着螢幕交流的體驗。

如果說語音能力讓ChatGPT更像“人”，那麼讀取圖像的能力就可以說是此次ChatGPT多模态能力中最讓人驚喜的部分了。此前，OpenAI在GPT-4上展示從草稿到網站的功能被稱為“代碼解釋器”（後改名為進階資料分析），但其面向的場景極為有限。而如今ChatGPT的圖像讀取能力則更加貼近使用者的日常生活，畢竟随便一拍的照片就能得到ChatGPT的回應。

根據OpenAI方面給出的示例，使用者現在可以拍一張冰箱的照片，然後讓ChatGPT來推薦菜單；在旅行時拍一張地标的照片，讓ChatGPT來講述這處景點的有趣之處；還能拍一張數學題的照片，讓ChatGPT來解答；更可以在炒股時拍一張K線圖，讓ChatGPT來替你看盤。但值得一提的是，OpenAI也主動對ChatGPT的圖像讀取能力進行了限制。

如果想要憑借一張電影的截圖來讓ChatGPT追溯電影的出處，ChatGPT是不會理你的，如果想要用一張名人的照片來讓ChatGPT評價這個人，它也會拒絕。簡單來說，ChatGPT會拒絕一切可能在法律和倫理上引發風險的問題。其實這也很好了解，畢竟正處于風口浪尖上的OpenAI，确實需要愛惜羽毛以避免陷入更多的漩渦中。

在已經收到更新的使用者測試中，ChatGPT的圖像讀取并非是傳統的“以圖搜圖”。有網友使用Midjourney現場生成的圖檔，但ChatGPT依然能夠準确辨識這張圖檔的内容，這也就意味着ChatGPT是在真正意義上擁有了了解圖像的能力。當然，ChatGPT的圖像讀取功能并非萬能，OpenAI方面就在相關論文中指出，ChatGPT會在空間感、多個圖層混合、上下文推理、遮擋紋理等場景産生“幻覺”。

如果僅僅隻是這樣，ChatGPT的圖像讀取能力可能并不會讓人特别興奮，它真正的“王炸”在于識别驗證碼。現在許多使用者對于驗證碼厭煩透頂，這顯然已經是不争的事實，面對各種稀奇古怪的驗證碼，特别是諸如12306驗證碼識圖這種讓機器束手無策、更難倒了許多使用者的情況，未來也完全可以讓ChatGPT代勞。隻不過，這一技術也會帶來一定的弊端。

要知道，驗證碼這一如今在網際網路上被廣泛使用的技術，其實就是為了區分人類和機器的操作而誕生。ChatGPT能夠準确識别驗證碼，就等于動搖了整個驗證碼體系。畢竟驗證碼作為一個反向的“圖靈測試”，确實在一定程度上隔絕了機器人的侵擾。一旦ChatGPT辨識驗證碼的能力被黑産應用，或許X、Instagram、微網誌、知乎等社交平台的機器人恐怕就會更加猖獗。

或許，這就是新技術所帶來的陣痛吧。

多模态功能上線，OpenAI讓ChatGPT能說話、會看圖

繼續閱讀

谷歌釋出全新更新大模型，對決OpenAI；星紀魅族釋出全新Flyme AIOS系統|科技一周

ChatGPT能夠幫助醫生準确分析臨床研究和病案記錄

藥企諾華、GSK中國區高層變動；OpenAI首席科學家離職 | 高管動态2024年5月5日-17日

保守派大潰敗？ OpenAI内鬥幕後推手離職阿爾特曼：這讓我很難過

ChatGPT 日耗電超 50 萬度，卡死AI發展的竟然是能源？

恐怖！懇求斯坦福教授幫它“越獄”？ChatGPT-4已出現自

OpenAI驚天内幕曝光！高管怒斥遭打壓，7100億AI巨頭内外交困｜钛媒體AGI

GPT-4o引發OpenAI組織創新熱議！重任應屆生大學生，職級都是浮雲

Ilya離開OpenAI内幕曝光：奧特曼砍他團隊算力，優先搞産品賺錢

OpenAI宮鬥大戲第二幕核心安全團隊解散負責人自爆離職内幕

OpenAI逼迫離職員工簽署閉嘴協定：GPT可以說話，但前員工不能

OpenAI回應“封嘴”離職條款；滴滴程維：柳青升任永久合夥人，公司不再設總裁崗位；NetBSD禁止AI生成代碼 | 極客頭條

OpenAI員工離職遭“封口”、核心安全團隊解散，Altman下場緊急回應：确有協定，但從未實行過！

和ChatGPT搞黃色的年輕人

聊聊OpenAI最新釋出的GPT 4o

OpenAI驚變！首席科學家突然離職！王煜全獨家分析！