天天看点

SALMONN:支持语音、音频事件和音乐输入的大型语言模型

作者:运维开发木子李

#暑期创作大赛#

SALMONN是一个支持语音、音频事件和音乐输入的大型语言模型(LLM),由清华大学电子工程系和字节跳动创建。SALMONN 不是仅语音输入或仅音频事件输入,而是可以感知和理解各种音频输入,从而获得多语言语音识别和翻译以及音频语音推理等新兴功能。这可以看作是让LLM的“耳朵”拥有了认知听觉能力,这使得SALMONN向具有听觉能力的通用人工智能迈出了一步。

SALMONN:支持语音、音频事件和音乐输入的大型语言模型

SALMONN 采用语音和音频编码器对通用音频表示进行编码,然后使用音频文本对齐器将音频特征映射到文本空间。最后,大语言模型根据文本提示和听觉标记进行回答。

SALMONN:支持语音、音频事件和音乐输入的大型语言模型

演示

与语音识别、音频字幕等传统语音和音频处理任务相比,SALMONN利用LLM的常识和认知能力,实现了面向认知的音频感知,极大地提高了模型的通用性和任务的丰富性。此外,SALMONN 能够以相对较高的准确度遵循文本命令,甚至口头命令。由于SALMONN仅使用基于文本命令的训练数据,因此听语音命令也是一种跨模态涌现能力。

以下是 SALMONN 的一些演示。

声音的 回复
asr.wav
SALMONN:支持语音、音频事件和音乐输入的大型语言模型
音频字幕.wav
SALMONN:支持语音、音频事件和音乐输入的大型语言模型
音乐.wav
SALMONN:支持语音、音频事件和音乐输入的大型语言模型
情感.wav
SALMONN:支持语音、音频事件和音乐输入的大型语言模型
asr_en2de.wav
SALMONN:支持语音、音频事件和音乐输入的大型语言模型
关键词.flac
SALMONN:支持语音、音频事件和音乐输入的大型语言模型
口语查询.wav
SALMONN:支持语音、音频事件和音乐输入的大型语言模型
音频讲故事.wav
SALMONN:支持语音、音频事件和音乐输入的大型语言模型
口语音频查询.wav
SALMONN:支持语音、音频事件和音乐输入的大型语言模型

项目地址:

继续阅读