中国电子音响行业协会

新闻中心

在2025GAS声学大讲堂第5期第4讲中，马栏山音视频实验室音频技术部经理李茂全，围绕 “语音前端技术揭秘” 带来了干货满满的深度揭秘分享。由于现场交流时间有限，部分观众的提问未能在互动环节逐一解答，会后李老师特意以书面形式细致梳理并回复了这些问题，让技术交流的价值进一步延伸。

Q1: 多通道降噪如何处理瞬态噪声?
多通道是指话筒阵列，提供了在方位上区分声源的可能性。但对噪声抑制并不都有帮助，例如来自目标人方向的噪声。语音前端需要抑制的噪声类型很多，瞬态类噪声仅是这些类型之一，传统算法可以有效区分和抑制的噪声类型很有限，但基于神经网络能很好的处理这些噪声。例如某视频会议厂家宣称产品可以抑制过百种噪声就是个例子。具体做法可以参考近年涌现的众多降噪模型。
Q2: 多声道做降噪的话，AI大概是怎么处理的呢？是直接拿多声道生成一个单声道吗？还是有一个确定的主麦克风?
多声道能带来根据波达方向区分不同声源的能力，这是整个阵列的所有话筒共同提供的，所以通常没有特别的主麦克风。少数情况下，对结构特殊的阵列或者针对不同频段，可能会在整个阵列中对话筒有所选择。
Q3: 非线性回声的处理模型有什么推荐么？
降噪模型可以看作是无参考的降噪，为降噪模型增加参考信号输入后提供的回声抑制（包括线性和非线性）能力可以看作是有参考的降噪。大部分降噪模型都可以如此增加回声抑制能力。
Q4: 一些操作系统上的应用是不是获取不到多通道的语音？这种情况只能在DSP芯片中处理么?
不是，与硬件和驱动程序有关，支持多通道的声卡种类很多，一般都能用于各种操作系统。
Q5: 麦克风本体信噪比会影响到哪些语音模块的性能?
本体电噪声接近白噪声，如果明显低于环境背景噪声就不构成影响。如果大于环境噪声，会干扰BF的协方差统计，淹没语谱的弱成分。但这种白化且稳定的噪声相对容易处理。
Q6: DSP适合处理语音信号吗？
当然。
Q7: 环境噪声大于麦克风底噪多少dB才能认为没有影响?
与环境噪声谱分布有关，一般认为话筒噪声谱整体低于环境噪声谱10dB以上则可以忽略。
Q8: 使用阵列拾音时，由于定位误差导致高频衰减，有没有好的处理方法？
使用频率无关波束，高子带波束展宽，以及根据目标信号形成波束主瓣等多种方法。
Q9: 多通道的ai降噪输出掩码是针对单通道的还是多通道的，如果是单通道那这个掩码作用在哪个主通道呢?
通常针对单通道，推荐通过波束形成一个SNR已经显著提升的单通道信号作为掩码用的信号，如果做不到，对于平面上的阵列可以任选一个通道。也有针对多通道的，使用比较有难度。
Q10:做车载的无麦k歌关门声等噪音很大会被录进去，有什么方法吗?
参考Q1。
Q11:固定方向的波束形成会考虑用低旁瓣的波束形成器么?
每种性能的提升一般都要以另外某个性能的损失为代价。所以视需求而定，例如主瓣宽度和旁瓣抑制就是这样的矛盾指标。
Q12:带麦杆的话务耳机双麦环境降噪有什么好的方案吗?一般用的是vad+自适应滤波器吗?低信噪比下怎么处理?
这种话筒到人嘴的距离远小于附近噪声源，一般SNR不会很低。可以考虑差分阵列、自适应滤波器、以及差分阵列/指向性话筒+参考话筒+降噪网络等。VAD中绝大部分降噪应用中都是推荐的。
Q13: AI降噪用在单麦或者双麦，如何做到小模型，最近遇到要求模型是30~40K的模型
这类低参数量的模型很多，可以参考影响很大的GTCRN模型。
Q14: IOT设备的喇叭链路THD做不到那么低，算法对大失真的AEC处理对THD最大容忍情况是多大呢?
与要求提供的最大声压和扬声器到话筒的距离都有关系，如果最大声压很低或者距离很远，那么THD的要求可以降低，具体由实验确定。
Q15: 啸叫抑制有成熟方案吗?
物理上减少声学反馈，陷波器、移频器、滤波器、神经网络，很多方法。

以上仅为本次大讲堂观众提问的部分问题，更多技术细节与深度交流可持续关注协会公众号。