天天看點

實時追蹤科研動态丨微軟和北大提出MusicAgent,10.19精選新論文

作者:AMiner科技情報挖掘

作為科研人員,每天需要檢索和浏覽大量的學術文獻,以擷取最新的科技進展和研究成果。然而,傳統的檢索和閱讀方式已經無法滿足科研人的需求。

AMiner AI,一款集檢索、閱讀、知識問答于一體的文獻知識工具。幫助你快提高檢索、閱讀論文效率,擷取最新領域研究動态,讓科研工作更加遊刃有餘。

實時追蹤科研動态丨微軟和北大提出MusicAgent,10.19精選新論文

結合前沿動态訂閱功能,精選arXiv當日熱門新論文,形成論文綜述,讓大家更加快速了解前沿動态。

如果想要對某篇論文進行深入對話,可以直接複制論文連結到浏覽器上或者直達AMiner AI頁面:https://www.aminer.cn/chat/g/explain

2023年10月19日精選新論文清單:

1.Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

論文介紹了一種名為 Self-RAG 的新架構,通過自我反思來提高語言模型的品質和真實性。現有的大型語言模型 (LLMs) 通常由于僅依賴于它們參數化的知識而産生包含事實錯誤的響應。檢索增強生成 (RAG) 是一種臨時方法,通過檢索相關知識來增強 LLMs,進而減少這種問題。然而,不論檢索是否必要,不分檢索到的段落是否相關,一概檢索并包含固定數量的檢索到的段落,會降低 LLM 的靈活性,或導緻生成無幫助的響應。Self-RAG 架構通過檢索和自我反思來增強 LLM 的品質和平事實性。該架構訓練一個單一的任意 LLM,根據需要自适應地檢索段落,并使用特殊标記(稱為反思标記)生成和反思檢索到的段落及其自身的生成。生成反思标記使得 LLM 在推理階段可控,進而使其行為适應多樣化的任務要求。實驗結果表明,Self-RAG(7B 和 13B 參數)在多樣化的任務上顯著優于最先進的 LLMs 和檢索增強模型。具體而言,Self-RAG 在開放領域問答、推理和事實驗證任務上優于 ChatGPT 和檢索增強的 Llama2-chat,并且相對于這些模型,它在提高長篇生成的準确性和引文準确性方面取得了顯著的進步。

https://www.aminer.cn/pub/65309159939a5f4082843d1b?f=toutiao

2.Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts

論文介紹了一種名為 Progressive3D 的通用架構,用于生成具有複雜語義提示的文本到 3D 内容。現有的文本到 3D 生成方法由于圖像擴散模型和優化政策的進步,能夠實作令人印象深刻的 3D 内容生成能力。然而,這些方法在處理複雜語義提示(描述多個互相作用的對象并具有不同屬性)時,往往難以生成正确的 3D 内容。Progressive3D 架構将整個生成過程分解為一系列局部漸進式編輯步驟,以建立精确的 3D 内容,并僅在使用者定義的區域提示決定的區域中限制内容更改。此外,我們提出了一種重疊語義元件抑制技術,以鼓勵優化過程更多地關注提示之間的語義差異。實驗結果表明,Progressive3D 架構能夠為具有複雜語義的提示生成精确的 3D 内容,并适用于各種由不同 3D 表示驅動的文本到 3D 方法。

https://www.aminer.cn/pub/65309159939a5f4082843e31?f=toutiao

3.MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

論文介紹了一種名為 MusicAgent 的 AI 代理,用于音樂了解和生成。它涵蓋了許多音樂處理任務,如生成任務(例如音色合成)和了解任務(例如音樂分類)。由于音樂資料表示和模型适用性在各種任務之間存在巨大差異,是以對于開發人員和愛好者來說,掌握所有這些任務以滿足他們在音樂進行中的需求非常困難。是以,有必要建立一個系統來組織和整合這些任務,進而幫助實踐者自動分析他們的需求并調用合适的工具作為解決方案來滿足他們的要求。受到大型語言模型(LLMs)在任務自動化方面取得最新成功的影響,我們開發了一個名為 MusicAgent 的系統,該系統整合了許多音樂相關工具和自主工作流以解決使用者需求。具體來說,我們建立了 1)工具集,從各種來源收集工具,包括 Hugging Face、GitHub 和 Web API 等。2)一個由 LLM(例如 ChatGPT)賦能的自主工作流,以組織這些工具并自動将使用者請求分解為多個子任務并調用相應的音樂工具。該系統的主要目标是讓使用者擺脫 AI-音樂工具的複雜性,讓他們專注于創意方面。通過賦予使用者輕松組合工具的自由,該系統提供了無縫且豐富的音樂體驗。

https://www.aminer.cn/pub/65309159939a5f4082843ede?f=toutiao

4.Multi-view Contrastive Learning for Entity Typing over Knowledge Graphs

這篇論文介紹了一種名為 Multi-view Contrastive Learning for knowledge graph Entity Typing (MCLET) 的新方法,用于在知識圖中推斷實體的可能類型。現有的知識圖實體類型推斷方法主要關注如何将實體周圍的鄰居和類型編碼到其表示中,但忽略了類型可以聚類在一起提供的語義知識。MCLET 由三個子產品組成:i) 多視角生成與編碼器子產品,用于從實體-- 類型、實體-- 聚類和聚類-- 類型視圖編碼結構化資訊;ii) 跨視角對比學習子產品,鼓勵不同視圖合作改進實體和類型的視圖特定表示;iii) 實體類型預測子產品,将多頭注意力和專家混合政策相結合以推斷缺失的實體類型。實驗結果表明,MCLET 相對于最先進的方法的性能非常強大。

https://www.aminer.cn/pub/65309159939a5f4082843f13?f=toutiao

5.A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge

這篇論文對向量資料庫進行了全面的調查,包括存儲和檢索技術以及挑戰。向量資料庫用于存儲傳統資料庫管理系統無法描述的高維資料。盡管關于現有或新型向量資料庫架構的文章并不多,但向量資料庫背後的近似最近鄰搜尋問題已經研究了很長時間,可以在文獻中找到很多相關的算法文章。本文試圖全面回顧相關算法,為讀者提供一個關于這個繁榮的研究領域的全面了解。我們的架構基于解決 ANNS 問題的方法對這些研究進行了分類,分别是基于哈希、樹、圖和量化方法的。然後,我們概述了向量資料庫目前面臨的挑戰。最後,我們勾畫了如何将向量資料庫與大型語言模型相結合,進而提供新的可能性。

https://www.aminer.cn/pub/65309159939a5f4082843ddf?f=toutiao

6.Masked Pretraining for Multi-Agent Decision Making

論文探讨了在多代理決策中使用掩蔽預訓練的問題。最近,在決策制定方面,建構具有零射擊能力的單一專家智能體已經取得了顯著進展。然而,将這種能力擴充到多代理場景中會帶來挑戰。目前大多數工作在零射擊能力方面都存在困難,這是多代理設定特有的兩個挑戰:集中預訓練與分散執行之間的不比對,以及代理數量和動作空間的變化,這使得在不同下遊任務中建立通用表示變得困難。為了克服這些挑戰,我們提出了一個用于多代理決策的掩蔽預訓練架構 (MaskMA)。這個基于變形器架構的模型采用了一種基于掩蔽的協作學習政策,适合于部分觀察的分散執行。此外,MaskMA 通過将動作空間劃分為自我資訊相關動作和其他實體相關動作,整合了一個可通用的動作表示。這種靈活性允許 MaskMA 處理具有不同代理數量的任務,是以具有不同的動作空間。在 SMAC 上的大量實驗表明,通過分散執行,MaskMA 在一個模型預訓練的 11 個訓練地圖上,可以在 60 個未見過的測試地圖上實作令人印象深刻的 77.8% 零射擊勝率,同時還在其他類型的下遊任務 (如各種政策協作和臨時團隊遊戲) 中表現出色。

https://www.aminer.cn/pub/65309159939a5f4082843e70?f=toutiao

END

我們在AMiner網站首頁添加了“每日精選新論文”專題,可以點選「訂閱」和「加入知識庫」,擷取全部論文資訊!

實時追蹤科研動态丨微軟和北大提出MusicAgent,10.19精選新論文

檢視每日新論文:AMiner - AI賦能科技情報挖掘-學術搜尋-論文檢索-論文專利-文獻追蹤-學者畫像

繼續閱讀