#暑期創作大賽#
SALMONN是一個支援語音、音頻事件和音樂輸入的大型語言模型(LLM),由清華大學電子工程系和位元組跳動建立。SALMONN 不是僅語音輸入或僅音頻事件輸入,而是可以感覺和了解各種音頻輸入,進而獲得多語言語音識别和翻譯以及音頻語音推理等新興功能。這可以看作是讓LLM的“耳朵”擁有了認知聽覺能力,這使得SALMONN向具有聽覺能力的通用人工智能邁出了一步。
SALMONN 采用語音和音頻編碼器對通用音頻表示進行編碼,然後使用音頻文本對齊器将音頻特征映射到文本空間。最後,大語言模型根據文本提示和聽覺标記進行回答。
示範
與語音識别、音頻字幕等傳統語音和音頻處理任務相比,SALMONN利用LLM的常識和認知能力,實作了面向認知的音頻感覺,極大地提高了模型的通用性和任務的豐富性。此外,SALMONN 能夠以相對較高的準确度遵循文本指令,甚至口頭指令。由于SALMONN僅使用基于文本指令的訓練資料,是以聽語音指令也是一種跨模态湧現能力。
以下是 SALMONN 的一些示範。
聲音的 | 回複 |
asr.wav | |
音頻字幕.wav | |
音樂.wav | |
情感.wav | |
asr_en2de.wav | |
關鍵詞.flac | |
口語查詢.wav | |
音頻講故事.wav | |
口語音頻查詢.wav |
項目位址: