天天看點

多模态大模型:ChatGPT迎來重磅更新,開啟看圖、聽聲音的新時代

作者:小文智能

近日,OpenAI宣布對ChatGPT進行了重磅更新,實作了看圖、聽聲音和輸出語音内容的功能。這一突破标志着通用人工智能(AGI)的重要裡程碑,為未來的發展開啟了全新的時代。OpenAI計劃在未來兩周向Plus和企業版使用者提供這些功能,并且語音功能将在iOS和Android平台上使用,而圖檔識别功能則可以在各個平台上使用。

多模态大模型:ChatGPT迎來重磅更新,開啟看圖、聽聲音的新時代

在圖像方面,使用者現在可以通過向ChatGPT展示一張或多張圖檔來提問。這為使用者提供了更加直覺和多樣化的互動方式。無論是對圖檔内容的詢問,還是對複雜圖表的資料分析,ChatGPT都能夠準确地進行回答。此外,使用者還可以使用APP中的繪圖工具,高亮标注圖檔中的特定部分,進一步深入讨論和分析。OpenAI将這一能看圖的模型稱為GPT-4V(ision),并在同日釋出的論文中詳細介紹了該模型的技術原理和應用場景。

而在語音方面,OpenAI與專業配音演員合作,提供了五種不同的聲音選擇。這使得ChatGPT的語音輸出更加多樣化和真實。此外,OpenAI還與Spotify展開合作,通過這一功能将播客翻譯為其他語言,并保留播客主持人的聲音。這項合作将進一步促進跨語言交流和内容傳播,OpenAI也将更多的時間用于改進和完善安全漏洞和風險。特别是新的語音技術,能夠在幾秒内生成逼真的合成聲音,這可能為詐騙者提供了便利條件。是以,安全研發政策對于涉及語音和視覺的進階模型至關重要,OpenAI将繼續加強安全措施,確定使用者的隐私和安全得到充分保護。

多模态大模型:ChatGPT迎來重磅更新,開啟看圖、聽聲音的新時代

根據SimilarWeb的資料顯示,這段時間,ChatGPT的流量呈現回升趨勢。9月11日當周,ChatGPT的流量較前一周增長了約12%。Sensor Tower的資料顯示,8月最後兩周全球ChatGPT應用程式的使用者每周增長超過10%。這一增長主要得益于學生開始返校,以及印度和巴西市場的增長。ChatGPT作為一個強大的人工智能助手,能夠提供廣泛的幫助和娛樂,受到了越來越多使用者的青睐。

多模态大模型:ChatGPT迎來重磅更新,開啟看圖、聽聲音的新時代

"大模型+小模型+應用&内容"的架構,是多模态大模型未來的發展趨勢。Meta推出了AudioCraft,通過AI生成音樂。谷歌的Bard和必應的機器人也已經部署了多模态功能。蘋果也在試驗AI生成語音Personal Voice。這些創新和應用進一步證明了多模态大模型的潛力和前景。多模态技術可以拓展應用範圍,随着大模型功能的逐漸完善,其應用場景與生态也有望進一步豐富,為各個垂直領域的應用帶來更多的可能性。使用者可以更加直覺地與人工智能進行互動,獲得更加豐富和多樣化的體驗。然而,随之而來的安全和算力挑戰也需要我們保持警惕和持續創新。未來,多模态大模型将成為人工智能發展的重要趨勢,為各個領域的應用帶來更多的可能性,并推動AI算力需求的進一步釋放。讓我們拭目以待,迎接人工智能的未來。

繼續閱讀