天天看點

大模型晚報|OPPO 研究院推出 RAM,幫助标記圖檔内容

大模型資訊:

OPPO 研究院推出 RAM ,幫助标記圖檔内容

OPPO 研究院近日發表論文,介紹了一款專注圖檔标記的基礎模型Recognize Anything Model ,簡稱為RAM。

據論文表示,RAM 中引入了一種全新的圖像标記範例,對大規模圖像文本進行訓練,以此來代替傳統的手動注釋。

論文表示,通過評估測試,團隊認為 RAM 在圖檔标記方面有着令人印象深刻的性能,其能力優于 CLIP和 BLIP。

Altman:OpenAI 并沒有上市計劃

據财聯社報道,OpenAI 聯合創始人 Sam Altman 近日在接受采訪時表示,OpenAI 并沒有上市計劃。

Altman表示,鑒于公司結構非常奇怪,沒有上市計劃。OpenAI将自身定義為有限盈利(capped-profit)企業,這允許它籌集外部資金。

今年1月,微軟又向Open AI提供了第二筆多年投資,投資據稱高達100億美元,進而幫助Open AI目前的估值接近300億美元。

AI數字人服務商FOCO獲數千萬元天使輪融資,創新工場獨家領投

據36氪報道,近日AI數字人解決方案提供商FOCO完成數千萬元天使輪融資,由創新工場獨家領投,遠識資本擔任長期獨家财務顧問。

此次融資将主要用于技術團隊的搭建以及底層技術的研發。

FOCO成立于2022年11月,團隊背景主要來自清華、北大等高校。基于自研AI算法,FOCO能通過AI技術實作生成并驅動擁有多模态互動能力的數字人。

庫克表示正在密切關注 ChatGPT

據 businessinsider報道,蘋果首席執行官蒂姆·庫克近日在接受采訪時透露,他正在使用ChatGPT,并對該工具的獨特感到興奮。

庫克表示,蘋果已經将人工智能技術內建到其産品之中,但大衆并不認為這些功能是人工智能。此外,蘋果正在密切關注 ChatGPT發展。

庫克表示,由大語言模型驅動端聊天機器人有着巨大的前景,但也可能會出現偏見和錯誤資訊等問題,因為此對于人工智能的監管是有必要的。

浙江大學聯手位元組跳動,推出語音合成系統 Mega-TTS

據 arxiv顯示,浙江大學研究團隊近日聯手位元組跳動,推出了全新 Zero-shot語音合成系統Mega-TTS。

據悉,目前的語音合成系統通常是通過自回歸語言模型或擴散模型來生成語音,這會忽略語音的本質,導緻輸出結果可能出現劣質或不可控的情況。而該研究團隊認為,可以将語音分解為内容、音色、韻律等不同的屬性,并針對每個屬性進行模組化,為此他們設計出了全新的Zero-shot語音合成系統Mega-TTS。

Mega-TTS 使用大規模的野生資料進行訓練,并以不同的方式來對不同的屬性進行模組化。實驗結果表明,Mega-TTS 在語音編輯、語音生成和跨語音語音生成方面均有不錯的表現,同時生成的語音在自然和穩定方面有着較為出色的表現。

LTX 宣布推出大模型産品 BondGPT,由 GPT-4提供支援

broadridge今天宣布,旗下子公司 LTX 今天宣布推出一款對話産品 BondGPT,它将由 GPT-4提供支援。

據悉, BondGPT 可以回答與債券有關的問題,解決他們的麻煩。通過整合在 LTX 上的資訊,該模型可以簡化工作流程,并幫助使用者在債券和投資組合的選擇時提高效率。

商湯與上海AI實驗室等釋出“書生·浦語”大模型

據商湯科技官方消息,商湯科技、上海AI實驗室聯合香港中文大學、複旦大學及上海交通大學釋出千億級參數大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有1040億參數,是在包含1.6萬億token的多語種高品質資料集上訓練而成。全面評測結果顯示,“書生·浦語”不僅在知識掌握、閱讀了解、數學推理、多語翻譯等多個測試任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國聯考各個科目的資料集(GaoKao)。

2023世界人工智能大會主題和主視覺釋出,微軟、谷歌、英偉達、OpenAI等将參會

據上海釋出公号消息,2023世界人工智能大會将于7月6-8日在上海舉辦,以“智聯世界 生成未來”為主題,聚焦通用人工智能發展,營造良好創新生态,擁抱智能新時代,共話産業新未來。今年大會重磅回歸線下,嘉賓總數再創新高。預計将有超1400位國内外大咖出席,包括圖靈獎得主、諾貝爾獎得主、國際組織代表、國外院士、海内外企業家/CEO等。會上将重點圍繞大模型、AI for Science、通用智能體、算力、元宇宙、人才等十大話題展開讨論。

中文線上等26家機關聯合釋出業内首份AIGC資料版權倡議書

由中國版權協會主辦的遠集坊第五十四期文化講座《人工智能生成内容版權問題研讨》,本次活動中,中文線上、同方知網、中國勞工出版社等26家機關共同釋出了國内首份有關AIGC訓練資料版權的倡議書。作為業内首份AIGC資料版權倡議書,其最大的價值在于兩點:一是喚醒了國内AI企業關于大模型訓練資料的版權意識;二是為AIGC研發者規避版權争議提供了方向性指引。

九号公司:公司與英偉達有業務合作情況屬實

據中證報消息,網傳九号公司-WD與英偉達有業務合作,九号公司-WD證券部從業人員回應稱,消息屬實,公司是和英偉達确實有一些業務合作。中信證券研報顯示,近日,英偉達釋出全新的自主移動機器人平台Isaac AMR,Isaac AMR的移動底盤來自九号公司,英偉達則主要負責軟體系統的內建。

重點論文:

Mega-TTS:具有固有感應偏置的大規模零鏡頭文本到語音轉換

在語音技術領域,将文本轉換為語音的研究一直是一個重要的話題。而随着技術的不斷發展,人們也開始關注如何實作語音風格的泛化。此前,相關研究通常采用音頻編解碼器将語音轉換為隐變量,并使用自回歸語言模型或擴散模型進行生成。但這種方法忽略了語音固有的屬性,可能導緻一些缺陷和控制問題。

是以,我們認為語音應該被分解為多個屬性,例如内容、音色、韻律和相位,并針對每個屬性進行适當的模組化。在這個基礎上,我們設計了一個新的大型零時刻 TTS 系統,名為 Mega-TTS,并使用大規模的野生資料進行訓練。具體來說,我們采用了以下政策:

首先,我們選擇頻譜圖作為中間特征,而不使用音頻編解碼器編碼的隐變量,因為頻譜圖能夠很好地分離相位和其他屬性。同時,我們使用基于 GAN 的 vocoder 建構了适當的相位模型,避免了語言模型模組化相位的問題。

其次,我們使用全局向量來模組化音色,因為音色是一個全局屬性,對時間變化不敏感。這種方法可以有效地控制音色的生成。

最後,我們采用基于 VQGAN 的聲學模型來生成頻譜圖,同時使用隐變量編碼語言模型來調節語調分布,以捕捉句子中短時間内的語調變化和長期依賴關系。

為了驗證 Mega-TTS 的效果,我們将其應用于包含 20000 小時語音的多領域資料集,并對未知說話者進行了評估。實驗結果表明,Mega-TTS 在零時刻 TTS、語音編輯和跨語言 TTS 任務中都超過了目前最先進的 TTS 系統。由于每個子產品都有适當的感應偏見,Mega-TTS 的生成語音具有很高的自然性、魯棒性和說話者相似性,這是其他系統所不具備的。

論文連結:https://arxiv.org/pdf/2306.03509.pdf