#暑期创作大赛#
SALMONN是一个支持语音、音频事件和音乐输入的大型语言模型(LLM),由清华大学电子工程系和字节跳动创建。SALMONN 不是仅语音输入或仅音频事件输入,而是可以感知和理解各种音频输入,从而获得多语言语音识别和翻译以及音频语音推理等新兴功能。这可以看作是让LLM的“耳朵”拥有了认知听觉能力,这使得SALMONN向具有听觉能力的通用人工智能迈出了一步。
SALMONN 采用语音和音频编码器对通用音频表示进行编码,然后使用音频文本对齐器将音频特征映射到文本空间。最后,大语言模型根据文本提示和听觉标记进行回答。
演示
与语音识别、音频字幕等传统语音和音频处理任务相比,SALMONN利用LLM的常识和认知能力,实现了面向认知的音频感知,极大地提高了模型的通用性和任务的丰富性。此外,SALMONN 能够以相对较高的准确度遵循文本命令,甚至口头命令。由于SALMONN仅使用基于文本命令的训练数据,因此听语音命令也是一种跨模态涌现能力。
以下是 SALMONN 的一些演示。
声音的 | 回复 |
asr.wav | |
音频字幕.wav | |
音乐.wav | |
情感.wav | |
asr_en2de.wav | |
关键词.flac | |
口语查询.wav | |
音频讲故事.wav | |
口语音频查询.wav |
项目地址: