在2025GAS声学大讲堂第5期第4讲中,马栏山音视频实验室音频技术部经理李茂全,围绕 “语音前端技术揭秘” 带来了干货满满的深度揭秘分享。由于现场交流时间有限,部分观众的提问未能在互动环节逐一解答,会后李老师特意以书面形式细致梳理并回复了这些问题,让技术交流的价值进一步延伸。

Q1: 多通道降噪如何处理瞬态噪声?
多通道是指话筒阵列,提供了在方位上区分声源的可能性。但对噪声抑制并不都有帮助,例如来自目标人方向的噪声。语音前端需要抑制的噪声类型很多,瞬态类噪声仅是这些类型之一,传统算法可以有效区分和抑制的噪声类型很有限,但基于神经网络能很好的处理这些噪声。例如某视频会议厂家宣称产品可以抑制过百种噪声就是个例子。具体做法可以参考近年涌现的众多降噪模型。
Q2: 多声道做降噪的话,AI大概是怎么处理的呢?是直接拿多声道生成一个单声道吗?还是有一个确定的主麦克风?
多声道能带来根据波达方向区分不同声源的能力,这是整个阵列的所有话筒共同提供的,所以通常没有特别的主麦克风。少数情况下,对结构特殊的阵列或者针对不同频段,可能会在整个阵列中对话筒有所选择。
Q3: 非线性回声的处理模型有什么推荐么?
降噪模型可以看作是无参考的降噪,为降噪模型增加参考信号输入后提供的回声抑制(包括线性和非线性)能力可以看作是有参考的降噪。大部分降噪模型都可以如此增加回声抑制能力。
Q4: 一些操作系统上的应用是不是获取不到多通道的语音?这种情况只能在DSP芯片中处理么?
不是,与硬件和驱动程序有关,支持多通道的声卡种类很多,一般都能用于各种操作系统。
Q5: 麦克风本体信噪比会影响到哪些语音模块的性能?
本体电噪声接近白噪声,如果明显低于环境背景噪声就不构成影响。如果大于环境噪声,会干扰BF的协方差统计,淹没语谱的弱成分。但这种白化且稳定的噪声相对容易处理。
Q6: DSP适合处理语音信号吗?
当然。
Q7: 环境噪声大于麦克风底噪多少dB才能认为没有影响?
与环境噪声谱分布有关,一般认为话筒噪声谱整体低于环境噪声谱10dB以上则可以忽略。
Q8: 使用阵列拾音时,由于定位误差导致高频衰减,有没有好的处理方法?
使用频率无关波束,高子带波束展宽,以及根据目标信号形成波束主瓣等多种方法。
Q9: 多通道的ai降噪输出掩码是针对单通道的还是多通道的,如果是单通道那这个掩码作用在哪个主通道呢?
通常针对单通道,推荐通过波束形成一个SNR已经显著提升的单通道信号作为掩码用的信号,如果做不到,对于平面上的阵列可以任选一个通道。也有针对多通道的,使用比较有难度。
Q10:做车载的无麦k歌关门声等噪音很大会被录进去,有什么方法吗?
参考Q1。
Q11:固定方向的波束形成会考虑用低旁瓣的波束形成器么?
每种性能的提升一般都要以另外某个性能的损失为代价。所以视需求而定,例如主瓣宽度和旁瓣抑制就是这样的矛盾指标。
Q12:带麦杆的话务耳机双麦环境降噪有什么好的方案吗?一般用的是vad+自适应滤波器吗?低信噪比下怎么处理?
这种话筒到人嘴的距离远小于附近噪声源,一般SNR不会很低。可以考虑差分阵列、自适应滤波器、以及差分阵列/指向性话筒+参考话筒+降噪网络等。VAD中绝大部分降噪应用中都是推荐的。
Q13: AI降噪用在单麦或者双麦,如何做到小模型,最近遇到要求模型是30~40K的模型
这类低参数量的模型很多,可以参考影响很大的GTCRN模型。
Q14: IOT设备的喇叭链路THD做不到那么低,算法对大失真的AEC处理对THD最大容忍情况是多大呢?
与要求提供的最大声压和扬声器到话筒的距离都有关系,如果最大声压很低或者距离很远,那么THD的要求可以降低,具体由实验确定。
Q15: 啸叫抑制有成熟方案吗?
物理上减少声学反馈,陷波器、移频器、滤波器、神经网络,很多方法。

以上仅为本次大讲堂观众提问的部分问题,更多技术细节与深度交流可持续关注协会公众号。
中国电子音响行业协会 | 联系电话: 021-5080 3802 | 传真: 021-50803528 | 协会邮箱:dingwenwen@caianet.org.cn 沪ICP备06004243号-1
友情链接:旗帜网 | 工信部 | 商务部 | 发改委 | 民政部 | 电子联合会 | 张江管委会 | 浦东科协 | 中科院声学所 | 南大声学所 | 音响之都(花都) | ISEAT | CES Asia | 丹麦投资局 | 国光电器 | 新科电子 | 歌尔股份 | 华录·松下 | 电子技术标准化研究院 | 漫步者 | TCL通力 | 三诺声智联 | 湖山电器 | 杰科数码 | 三基音响 | 惠威科技 | 家庭影院技术 | 环球资源 | 耳机大家坛