SALMONN：支持语音、音频事件和音乐输入的大型语言模型

作者：运维开发木子李 2023-08-23 18:11:00

#暑期创作大赛#

SALMONN是一个支持语音、音频事件和音乐输入的大型语言模型（LLM），由清华大学电子工程系和字节跳动创建。SALMONN 不是仅语音输入或仅音频事件输入，而是可以感知和理解各种音频输入，从而获得多语言语音识别和翻译以及音频语音推理等新兴功能。这可以看作是让LLM的“耳朵”拥有了认知听觉能力，这使得SALMONN向具有听觉能力的通用人工智能迈出了一步。

SALMONN 采用语音和音频编码器对通用音频表示进行编码，然后使用音频文本对齐器将音频特征映射到文本空间。最后，大语言模型根据文本提示和听觉标记进行回答。

演示

与语音识别、音频字幕等传统语音和音频处理任务相比，SALMONN利用LLM的常识和认知能力，实现了面向认知的音频感知，极大地提高了模型的通用性和任务的丰富性。此外，SALMONN 能够以相对较高的准确度遵循文本命令，甚至口头命令。由于SALMONN仅使用基于文本命令的训练数据，因此听语音命令也是一种跨模态涌现能力。

以下是 SALMONN 的一些演示。

声音的	回复
asr.wav	SALMONN：支持语音、音频事件和音乐输入的大型语言模型
音频字幕.wav	SALMONN：支持语音、音频事件和音乐输入的大型语言模型
音乐.wav	SALMONN：支持语音、音频事件和音乐输入的大型语言模型
情感.wav	SALMONN：支持语音、音频事件和音乐输入的大型语言模型
asr_en2de.wav	SALMONN：支持语音、音频事件和音乐输入的大型语言模型
关键词.flac	SALMONN：支持语音、音频事件和音乐输入的大型语言模型
口语查询.wav	SALMONN：支持语音、音频事件和音乐输入的大型语言模型
音频讲故事.wav	SALMONN：支持语音、音频事件和音乐输入的大型语言模型
口语音频查询.wav	SALMONN：支持语音、音频事件和音乐输入的大型语言模型

项目地址：

SALMONN：支持语音、音频事件和音乐输入的大型语言模型

演示

继续阅读

Llama 3：开源大语言模型的下一个前沿

大语言模型的应用秘诀：如何通过高效的提示词掌控AI？

苹果又被曝大动作，自研设备端大语言模型，AI才是“重振雄风”新出路？

难怪之前传iPhone16系列国行版本AI功能将由百度提供，原来百度在中国人工智能发明专利企业排名中还是靠前的。排名前十

苹果发布OpenELM，基于开源训练和推理框架的高效语言模型

所罗门诺夫：大语言模型的先知

大语言模型部署：vLLM 与量化技术

苹果发高效语言模型 OpenELM；小米策划 15 万元新车；AI 成功改写人类 DNA|极客早知道

深度学习与化学语言模型结合，用于药物从头设计，登Nature子刊

属于各大科技公司的风口又来了！这次大语言模型引领“新工业革命

大语言模型落地为什么第一步是做客服

OpenAI推出全新大语言模型GPT-4o；苹果将在中国开售Vision Pro；软银几乎全部出售阿里股份

探索大语言模型：理解Self Attention| 京东物流技术团队

知识图与大型语言模型的协同作用

多功能RNA分析，百度团队的RNA语言模型登Nature子刊

参数少量提升，性能指数爆发！谷歌：大语言模型暗藏神秘技能