SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型

作者：運維開發木子李 2023-08-23 18:11:00

#暑期創作大賽#

SALMONN是一個支援語音、音頻事件和音樂輸入的大型語言模型（LLM），由清華大學電子工程系和位元組跳動建立。SALMONN 不是僅語音輸入或僅音頻事件輸入，而是可以感覺和了解各種音頻輸入，進而獲得多語言語音識别和翻譯以及音頻語音推理等新興功能。這可以看作是讓LLM的“耳朵”擁有了認知聽覺能力，這使得SALMONN向具有聽覺能力的通用人工智能邁出了一步。

SALMONN 采用語音和音頻編碼器對通用音頻表示進行編碼，然後使用音頻文本對齊器将音頻特征映射到文本空間。最後，大語言模型根據文本提示和聽覺标記進行回答。

示範

與語音識别、音頻字幕等傳統語音和音頻處理任務相比，SALMONN利用LLM的常識和認知能力，實作了面向認知的音頻感覺，極大地提高了模型的通用性和任務的豐富性。此外，SALMONN 能夠以相對較高的準确度遵循文本指令，甚至口頭指令。由于SALMONN僅使用基于文本指令的訓練資料，是以聽語音指令也是一種跨模态湧現能力。

以下是 SALMONN 的一些示範。

聲音的	回複
asr.wav	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型
音頻字幕.wav	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型
音樂.wav	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型
情感.wav	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型
asr_en2de.wav	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型
關鍵詞.flac	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型
口語查詢.wav	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型
音頻講故事.wav	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型
口語音頻查詢.wav	SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型

項目位址：

SALMONN：支援語音、音頻事件和音樂輸入的大型語言模型

示範

繼續閱讀

【英特爾釋出新一代AI晶片，或成英偉達産品勁敵】英特爾在人工智能加速器領域取得了重要進展，其子公司HabanaLabs在

研究者提出人工智能新概念，讓大語言模型與真實實體世界進行互動

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

屬于各大科技公司的風口又來了！這次大語言模型引領“新工業革命

大語言模型落地為什麼第一步是做客服

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

探索大語言模型：了解Self Attention| 京東物流技術團隊

知識圖與大型語言模型的協同作用