Radio2Tex：利用毫米波（mmWave）来进行实时的自动语音识别

作者：lemondy君 2023-09-27 22:01:00

香港大学和清华大学联合开发了一种技术，利用毫米波将听到的声音转换成文字。

该系统能够实时识别包含超过13000个词汇的文本，即使在有噪音或防音措施的环境下也能有效工作。特别适用于会议语音转录和窃听等应用场景。

工作原理：

1、捕捉声音：毫米波（mmWave）通常用于无线通信，但在这个特殊的应用中，它被用于实时自动语音识别（ASR）。

;具体来说，毫米波具有非常高的频率和短的波长。这使得它们能够精确地捕捉到物体（包括空气中的声波）的微小移动和变化。这些变化随后被转换成电信号。这些电信号再通过特殊的算法进行处理和分析，最终转换成文字。

;简单来讲，当你说话的时候，你的声音会在空气中产生波动。毫米波能够捕捉到这些波动并将其转换成电信号，然后这些电信号被用来识别你说了什么，最后转换成文字。 

这种方法的一个主要优点是它能在各种复杂环境下工作，包括在有噪音或防音措施的情况下。这是因为毫米波对这些因素有很高的鲁棒性，能够准确地捕捉到声音产生的空气波动。

2、流式自动语音识别（ASR）: Radio2Text 是第一个使用毫米波信号进行流式自动语音识别（ASR）的系统。它能够在低延迟的流模式下准确识别文本。 

该系统能识别超过13,000个词，这对于实际应用如会议转录或窃听非常有用。

3、Guidance Initialization（GI）: 为了解决流式网络不能使用全局上下文的问题，研究人员提出了一种名为“Guidance Initialization”的方法，该方法通过权重继承从非流式Transformer模型中传递全局上下文相关的特征知识。

4、跨模态知识蒸馏: 由于毫米波信号质量较低，研究人员使用了一种基于知识蒸馏的跨模态结构来提高识别性能。 

实验结果: Radio2Text 在多种场景（包括安静、嘈杂和隔音场景）中的性能都优于其他基于毫米波的方法。具体地，该系统的字符错误率为5.7%，词错误率为9.4%。

继续阅读