天天看點

SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型

作者:運維開發木子李

#暑期創作大賽#

SALMONN是一個支援語音、音頻事件和音樂輸入的大型語言模型(LLM),由清華大學電子工程系和位元組跳動建立。SALMONN 不是僅語音輸入或僅音頻事件輸入,而是可以感覺和了解各種音頻輸入,進而獲得多語言語音識别和翻譯以及音頻語音推理等新興功能。這可以看作是讓LLM的“耳朵”擁有了認知聽覺能力,這使得SALMONN向具有聽覺能力的通用人工智能邁出了一步。

SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型

SALMONN 采用語音和音頻編碼器對通用音頻表示進行編碼,然後使用音頻文本對齊器将音頻特征映射到文本空間。最後,大語言模型根據文本提示和聽覺标記進行回答。

SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型

示範

與語音識别、音頻字幕等傳統語音和音頻處理任務相比,SALMONN利用LLM的常識和認知能力,實作了面向認知的音頻感覺,極大地提高了模型的通用性和任務的豐富性。此外,SALMONN 能夠以相對較高的準确度遵循文本指令,甚至口頭指令。由于SALMONN僅使用基于文本指令的訓練資料,是以聽語音指令也是一種跨模态湧現能力。

以下是 SALMONN 的一些示範。

聲音的 回複
asr.wav
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型
音頻字幕.wav
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型
音樂.wav
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型
情感.wav
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型
asr_en2de.wav
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型
關鍵詞.flac
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型
口語查詢.wav
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型
音頻講故事.wav
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型
口語音頻查詢.wav
SALMONN:支援語音、音頻事件和音樂輸入的大型語言模型

項目位址:

繼續閱讀