多模态大模型：ChatGPT迎來重磅更新，開啟看圖、聽聲音的新時代

作者：小文智能 2023-10-13 11:00:00

近日，OpenAI宣布對ChatGPT進行了重磅更新，實作了看圖、聽聲音和輸出語音内容的功能。這一突破标志着通用人工智能（AGI）的重要裡程碑，為未來的發展開啟了全新的時代。OpenAI計劃在未來兩周向Plus和企業版使用者提供這些功能，并且語音功能将在iOS和Android平台上使用，而圖檔識别功能則可以在各個平台上使用。

在圖像方面，使用者現在可以通過向ChatGPT展示一張或多張圖檔來提問。這為使用者提供了更加直覺和多樣化的互動方式。無論是對圖檔内容的詢問，還是對複雜圖表的資料分析，ChatGPT都能夠準确地進行回答。此外，使用者還可以使用APP中的繪圖工具，高亮标注圖檔中的特定部分，進一步深入讨論和分析。OpenAI将這一能看圖的模型稱為GPT-4V(ision)，并在同日釋出的論文中詳細介紹了該模型的技術原理和應用場景。

而在語音方面，OpenAI與專業配音演員合作，提供了五種不同的聲音選擇。這使得ChatGPT的語音輸出更加多樣化和真實。此外，OpenAI還與Spotify展開合作，通過這一功能将播客翻譯為其他語言，并保留播客主持人的聲音。這項合作将進一步促進跨語言交流和内容傳播，OpenAI也将更多的時間用于改進和完善安全漏洞和風險。特别是新的語音技術，能夠在幾秒内生成逼真的合成聲音，這可能為詐騙者提供了便利條件。是以，安全研發政策對于涉及語音和視覺的進階模型至關重要，OpenAI将繼續加強安全措施，確定使用者的隐私和安全得到充分保護。

根據SimilarWeb的資料顯示，這段時間，ChatGPT的流量呈現回升趨勢。9月11日當周，ChatGPT的流量較前一周增長了約12%。Sensor Tower的資料顯示，8月最後兩周全球ChatGPT應用程式的使用者每周增長超過10%。這一增長主要得益于學生開始返校，以及印度和巴西市場的增長。ChatGPT作為一個強大的人工智能助手，能夠提供廣泛的幫助和娛樂，受到了越來越多使用者的青睐。

"大模型+小模型+應用&内容"的架構，是多模态大模型未來的發展趨勢。Meta推出了AudioCraft，通過AI生成音樂。谷歌的Bard和必應的機器人也已經部署了多模态功能。蘋果也在試驗AI生成語音Personal Voice。這些創新和應用進一步證明了多模态大模型的潛力和前景。多模态技術可以拓展應用範圍，随着大模型功能的逐漸完善，其應用場景與生态也有望進一步豐富，為各個垂直領域的應用帶來更多的可能性。使用者可以更加直覺地與人工智能進行互動，獲得更加豐富和多樣化的體驗。然而，随之而來的安全和算力挑戰也需要我們保持警惕和持續創新。未來，多模态大模型将成為人工智能發展的重要趨勢，為各個領域的應用帶來更多的可能性，并推動AI算力需求的進一步釋放。讓我們拭目以待，迎接人工智能的未來。

多模态大模型：ChatGPT迎來重磅更新，開啟看圖、聽聲音的新時代

繼續閱讀

馬斯克怒斥蘋果接入ChatGPT：真敢內建就在全公司禁用

3類孩子“一考就廢”，清華博士的鐵三角模型，幫你成為考試高手

絕對新鮮實惠圖源：archiminibricks#樂高 #樂高MOC #積木#模型#大人也要玩玩具

大模型發展趨勢：多模态、自主智能、邊緣智能…

IOS18真的是“屎詩級”更新呀，還有『衛星短信』和接入ChatGPT功能，但這倆都跟國内的果粉沒有一毛錢關系……以前都

國外蘋果iPhone正式整合ChatGPT，中國版iPhone又會做何選擇？

效果對标Sora國産AI視訊應用邀測，快手視訊生成大模型可靈亮相

奧特曼談AI的機遇、挑戰與人類自我反思：中國将擁有獨特的大語言模型

人工智能行業深度報告-“元年”之後-再看大模型應用商業化進展

谷歌 Pixel 手機獲功能更新：Pixel 8(a) 可用 Gemini Nano 模型

芯原執行副總裁、IP事業部總經理戴偉進：大模型正在進入邊緣端側，手機，PC和汽車是主力。芯原的CPU,GPU，NPU，V

2024 年 19 種最佳大型語言模型

資料分析十大模型之一：漏鬥模型

誰才是新能源汽車座艙天花闆？鴻蒙座艙名聲在外，但新的挑戰者已經出現了！#智能座艙#6月12日，長城汽車釋出CoffeeO

今日競價打闆總結（6月13日）1-3号日線結構壓力較大，競價有瑕疵或有誘多嫌疑，都沒入場，但最終全都封闆。4号競價尚可，

大模型“價格戰”打響，AI界迎來大變天？