作者 | 香草
編輯 | 李水青
GPT-4o的進階語音功能,終于不再是“期貨”了!
智東西7月31日消息,今天淩晨,OpenAI宣布開始向一小部分ChatGPT Plus使用者推出進階語音模式,基于GPT-4o提供更自然的實時對話。
▲OpenAI上線進階語音模式
該模式上線後,不少收到邀請的網友已經玩起來了,并分享了自己試用的視訊和感受。例如這是一段由ChatGPT獻上的快嘴Rap和Beatbox,聽起來還挺有模有樣的。
視訊加載中...
總的來看,ChatGPT的進階語音模式與當初官方的示範差别并不大,幾乎沒有時延,各種語氣也十分生動。不過其似乎在安全方面做了很多防護措施,ChatGPT拒絕使用者請求的幾率變高了。
ChatGPT的語音對話功能于去年9月首次推出。今年5月,OpenAI推出基于旗艦模型GPT-4o的更進階語音對話版,并進行了公開示範。GPT-4o使用單個多模态模型,而不是之前的三個獨立模型來實作語音功能,進而降低了與聊天機器人對話的延遲。(OpenAI一夜幹翻語音助手!GPT-4o模型強到恐怖,ChatGPT學會看螢幕,現實版Her來了)
當時,OpenAI宣稱該功能将在幾周内陸續向免費和付費使用者推出。但釋出沒幾天,OpenAI就因示範中的ChatGPT聲音,與《複仇者聯盟》系列電影中“黑寡婦”扮演者、被影迷稱為“寡姐”的斯嘉麗·約翰遜(Scarlett Johansson)聲線過于相似,而遭到斯嘉麗本人的控訴和網友的強烈反對。
進階語音模式的釋出日期也是以被推遲。盡管OpenAI堅稱ChatGPT并沒有模仿斯嘉麗的聲音,但該聲線後來還是被删除了。
一、百餘外部紅隊成員測試,秋季或開放至全部訂閱使用者
基于GPT-4o的進階語音模式目前僅向小部分ChatGPT Plus使用者推出,可提供更自然的實時對話,允許使用者随時打斷,并能感覺和響應使用者情緒。
參與此Alpha測試的使用者将收到一封包含說明的電子郵件,并在其ChatGPT手機端App中收到通知。OpenAI稱,後續将繼續滾動添加更多使用者,并計劃在秋季讓每一個Plus訂閱使用者上都能使用。
▲邀請郵件和App首頁面
ChatGPT的進階語音模式于今年5月釋出,其基于OpenAI全新旗艦模型GPT-4o,可以進行語音聊天和實時視訊互動,比如通過視訊影像了解線性方程、通過人的表情和語調了解并判斷出人的情緒等。
OpenAI稱,自首次釋出以來,團隊一直緻力于加強語音對話的安全性和品質,與45種語言的100多名外部紅隊成員一起測試了語音功能。
為了保護隐私,OpenAI在訓練模型時隻用四種預設的聲音說話,并建構了相應的系統來屏蔽與不同的輸出,還采取了防護措施來屏蔽對暴力或版權内容的請求。
OpenAI計劃在8月初,分享一份關于GPT-4o的功能、局限性和安全評估的詳細報告。
二、第一波試用者開始整活了:練法語、學貓叫、解說足球
第一波試用者已經迫不及待地用上進階語音模式,并分享了自己試用體驗。
藝術家Manuel Sainsily打開攝像頭,一邊實時拍攝自己的剛養的小貓和為其布置的環境,一邊詢問ChatGPT關于喂養的意見。
視訊加載中...
ChatGPT的回應基本沒有任何延遲,先是用非常寵愛的語氣稱贊了貓咪的可愛,随後在詢問了更多資訊後安慰Sainsily,告訴他不用擔心。Sainsily感慨道:“這感覺就像與一位知識淵博的朋友進行視訊通話。”
網友Bergara在社交平台Reddit分享道,ChatGPT拒絕了他所有的唱歌請求,也不願意改變聲線。當他讓ChatGPT以不同的方式和情緒背誦一首詩歌時成功了,但要求它笑着背誦這首詩時,它拒絕了。
例如, Bergara稱自己正在練習法語,讓ChatGPT充當語言教練,詢問其關于發音的意見。
視訊加載中...
針對Bergara的單詞發音,ChatGPT詳細地給出了關于重音、尾音等的建議,并做了示範。同時其在教學風格上非常“鼓勵式教育”,毫不吝啬地誇獎Bergara的發音,情緒價值直接拉滿。
Bergara又讓ChaGPT分别用害羞、生氣的語氣講關于啤酒的笑話。ChatGPT對害羞的了解是用氣聲發音,在表達生氣時則提高了自己的分貝。
視訊加載中...
當ChatGPT被要求用悲傷的語氣朗誦詩歌時,它聽起來快要碎了……
視訊加載中...
Bergara稱,到目前為止的測試裡,ChatGPT表現出的樣子和OpenAI所展示的差不多,但拒絕率似乎有點高,他推測可能是出于安全原因。
例如,當Bergara要求ChatGPT用歌聲講一個關于機器人和愛的故事,它稱自己可以講故事,但隻能用平常說話的語氣。
視訊加載中...
在ChatGPT講故事的過程中,Bergara多次打斷并要求它“加入更多感情”。ChatGPT照做了,其語氣變得更加緩慢和生動。
還有的網友已經開始用ChatGPT整活了。
Squad聯合創始人、首席技術官Ethan Sutin讓ChatGPT模仿了各種各樣的貓叫。不得不說這貓叫有些“魔性”,但似乎還挺真實的,因為我家貓被吸引過來了……
視訊加載中...
ChatGPT似乎還具備音樂演奏的能力。Sutin讓其演奏一個C小調和弦,有沒有懂樂理的讀者朋友來聽一下是否準确?
視訊加載中...
網友Cristiano Giardina讓ChatGPT扮演起了足球比賽評論員。他分享了試用進階語音模式的一些初步印象:速度非常快,總是會産生有趣的結果,在說其他語言時總是帶有美國口音。
視訊加載中...
網友Kesku讓ChatGPT說一種不存在的語言,然後解釋這種語言是如何運作的。ChatGPT創造了一種基于聲音的語言Glimnar,聽起來有點像吟唱。
視訊加載中...
盡管現在用上ChatGPT進階語音模式的使用者還是少數,但随着其推送範圍的擴大,也許我們能看到更多有趣的玩法和體驗。
結語:OpenAI提高對AI安全的重視
AI在語音、視訊方面,正在因為其充當欺詐工具的能力受到審查。盡管OpenAI的語音模式目前不允許生成新的聲線或語音克隆,但該模式仍然可能會給人帶來混淆。
在春季更新後的幾個月裡,OpenAI釋出了一系列關于安全性和AI模型對齊的新論文。在此之前,其超級對齊團隊已經解散,一些前任和現任員工批評其将重點轉移到釋出新産品而不是安全性上。目前來看,進階語音模式的推出放緩似乎是在向使用者、監管機構和立法者表明OpenAI對安全的重視。
ChatGPT進階語音模式的釋出也使OpenAI進一步與Meta的Llama 3.1模型、Anthropic的Claude 3等競争對手區分開,給專注于情感語音的AI初創公司帶來壓力。