深圳语音交互声学回声环境噪声抑制算法

来源：发布时间：2023年01月02日

深入浅出WebRTCAEC（声学回声消除）,前言：近年来，音视频会议产品提升着工作协同的效率，在线教育产品突破着传统教育形式的种种限制，娱乐互动直播产品丰富着生活社交的多样性，背后都离不开音视频通信技术的优化与创新，其中音频信息内容传递的流畅性、完整性、可懂度直接决定着用户之间的沟通质量。自2011年WebRTC开源以来，无论是其技术架构，还是其中丰富的算法模块都是值得我们细细品味，音频方面熟知的3A算法（AGC:Automaticgaincontrol;ANS:Adaptivenoisesuppression;AEC:Acousticechocancellation）就是其中闪闪发光的明珠。本文章将结合实例解析WebRTCAEC的基本框架和基本原理，一起探索回声消除的基本原理，技术难点以及优化方向。回声的形成WebRTC架构中上下行音频信号处理流程，音频3A主要集中在上行的发送端对发送信号依次进行回声消除、降噪以及音量均衡（这里只讨论AEC的处理流程，如果是AECM的处理流程ANS会前置），AGC会作为压限器作用在接收端对即将播放的音频信号进行限幅。那么回声是怎么形成的呢？如图2所示，A、B两人在通信的过程中，我们有如下定义：x(n):远端参考信号，即A端订阅的B端音频流，通常作为参考信号；y(n):回声信号，即扬声器播放信号x。

非线性声学回声消除方面的资料非常少。深圳语音交互声学回声环境噪声抑制算法

噪声抑制和声源分离同属于语音增强的范畴，如果把噪声理解为广义的噪声三者之间的关系,噪声抑制需要准确估计出噪声信号，其中平稳噪声可以通过语音检测判别有话端与无话端的状态来动态更新噪声信号，进而参与降噪，常用的手段是基于谱减法(即在原始信号的基础上减去估计出来的噪声所占的成分)的一系列改进方法，其效果依赖于对噪声信号估计的准确性。对于非平稳噪声，目前用的较多的就是基于递归神经网络的深度学习方法，很多Windows设备上都内置了基于多麦克风阵列的降噪的算法。效果上，为了保证音质，噪声抑制允许噪声残留，只要比原始信号信噪比高，噪且听觉上失真无感知即可。单声道的声源分离技术起源于传说中的鸡尾酒会效应，是指人的一种听力选择能力，在这种情况下，注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。该效应揭示了人类听觉系统中令人惊奇的能力，即我们可以在噪声中谈话。科学家们一直在致力于用技术手段从单声道录音中分离出各种成分，一直以来的难点，随着机器学习技术的应用，使得该技术慢慢变成了可能，但是较高的计算复杂度等原因，距离RTC这种低延时系统中的商用还是有一些距离。噪声抑制与声源分离都是单源输入。

深圳语音交互声学回声环境噪声抑制算法声学回声消除，该技术的出现旨在消除这种因远程网络会议所带来的回授现象。

只需要近端采集信号即可，傲娇的回声消除需要同时输入近端信号与远端参考信号。有同学会问已知了远端参考信号，为什么不能用噪声抑制方法处理呢，直接从频域减掉远端信号的频谱不就可以了吗？行为近端信号s(n)，已经混合了近端人声和扬声器播放出来的远端信号，黄色框中已经标出对齐之后的远端信号，其语音表达的内容一致，但是频谱和幅度(明显经过扬声器放大之后声音能量很高)均不一致，意思就是：参考的远端信号与扬声器播放出来的远端信号已经是“貌合神离”了，与降噪的方法相结合也是不错的思路，但是直接套用降噪的方法显然会造成回声残留与双讲部分严重的抑制。接下来，我们来看看WebRTC科学家是怎么做的吧。信号处理流程WebRTCAEC算法包含了延时调整策略，线性回声估计，非线性回声抑制3个部分。回声消除本质上更像是音源分离，我们期望从混合的近端信号中消除不需要的远端信号，保留近端人声发送到远端，但是WebRTC工程师们更倾向于将两个人交流的过程理解为一问一答的交替说话，存在远近端同时连续说话的情况并不多（即保单讲轻双讲）。因此只需要区分远近端说话区域就可以通过一些手段消除绝大多数远端回声。

这样会带来一个新的问题：按照Widrow的自适应滤波理论，滤波器的长度越长，其收敛速度越慢，同时权噪声越大，进而导致强混响下回声消除不够理想。第二个问题是延时跳变问题。在实时音视频通话领域，延时跳变是一个比较普遍的问题。主要现象是麦克端采集的信号和回声参考信号之间的时延关系会发生跳变，每次跳变之后就需要重新对齐信号，就会漏一些回声出来。第三个问题是啸叫问题。啸叫的检测和啸叫的抑制是公认的在回声领域的经典难题。还有双讲问题。双讲是评估回声消除算法性能的一个重要指标，当然也是很难处理的一个问题，因为双讲很容易导致滤波器系数发散。综合以上这些维度我们可以看到，非线性的声学回声消除是一个很有挑战的研究方向。双耦合声学回声消除算法这个是我们团队提出来的一种算法，它的主要特点是，在构建滤波器模型的过程中结合了非线性声学回声的一些特性，因此它在抑制非线性回声方面，也体现出固有的优势。1.非线性声学回声系统建模,继续回到前面的这个声学回声路径。我们对这个模型进行了简化。我们将左边的喇叭端用一个传递函数Wn来表示，假设它的是非线性的回声路径传递函数；同时我们将喇叭右边，就是麦克端，统一用Wl来表示。

AEC声学回声，电话的扬声器的声音。

底噪也就是本底噪声，一般指在电声系统中，除去有用的信号外的总噪声。底噪有来自于固有的电子、电磁噪音，也有确是功放电路或电源性能问题导致的。理论上底噪是无法去除的，当然只有当底噪大到影响听感的时候才是问题。很多时候可以提高信噪比把底噪给压低，这确实可以降低听音乐时噪声的影响。但是总之人们还是有带耳机不听音乐的时候，典型的如ANC耳机降噪工作的时候，此时显得尤为重要，近期几大品牌都因为ANC底噪问题造成过批量退货。为了准确的检测产品底噪，我们需要知道目前行业内耳机功放工作类型大概有以下两种：1、产品处于蓝牙播放状态时，功放IC有打开，输入端无任何音源，喇叭输出端有底噪信号输出。2、产品处于蓝牙播放状态时，IC会被系统静音，信号输入端需要给一个很小信号触发功放IC打开，喇叭输出端有底噪信号输出。总的来说，底噪时需要多种指标和技术手段来验证和管控。指南测控整个标准声学测试系统通过极高灵敏度的仪器和声学传感器，采用多种评估底噪能量值的方法，以及专门为底噪测试而设计的箱体及治具结构，测试软件逻辑等一体化的设计，可以准确快速的进行底噪测试。下图TWS耳机中的左耳，在喇叭播放空声源时，喇叭端有略微的电流声底噪。非线性声学回声消除技术。深圳语音交互声学回声环境噪声抑制算法

的是声学回声的路径。深圳语音交互声学回声环境噪声抑制算法

至于双讲恢复能力WebRTCAEC算法提供了{kAecNlpConservative,kAecNlpModerate,kAecNlpAggressive}3个模式，由低到高依次不同的抑制程度，远近端信号处理流程,NLMS自适应算法（上图中橙色部分）的运用旨在尽可能地消除信号d(n)中的线性部分回声，而残留的非线性回声信号会在非线性滤波（上图中紫色部分）部分中被消除，这两个模块是WebrtcAEC的模块。模块前后依赖，现实场景中远端信号x(n)由扬声器播放出来在被麦克风采集的过程中，同时包含了回声y(n)与近端信号x(n)的线性叠加和非线性叠加：需要消除线性回声的目的是为了增大近端信号X(ω)与滤波结果E(ω)之间的差异，计算相干性时差异就越大（近端信号接近1，而远端信号部分越接近0），更容易通过门限直接区分近端帧与远端帧。非线性滤波部分中只需要根据检测的帧类型，调节抑制系数，滤波消除回声即可。下面我们结合实例分析这套架构中的线性部分与非线性分。线性滤波线性回声y'(n)可以理解为是远端参考信号x(n)经过房间冲击响应之后的结果，线性滤波的本质也就是在估计一组滤波器使得y'(n)尽可能的等于x(n)，通过统计滤波器组的比较大幅值位置index找到与之对齐远端信号帧，该帧数据会参与相干性计算等后续模块。

深圳语音交互声学回声环境噪声抑制算法

深圳鱼亮科技有限公司主营品牌有Bothlent，发展规模团队不断壮大，该公司服务型的公司。公司是一家有限责任公司（自然）企业，以诚信务实的创业精神、专业的管理团队、踏实的职工队伍，努力为广大用户提供***的产品。公司始终坚持客户需求优先的原则，致力于提供高质量的智能家居，语音识别算法，机器人交互系统，降噪。深圳鱼亮科技顺应时代发展和市场需求，通过**技术，力图保证高规格高质量的智能家居，语音识别算法，机器人交互系统，降噪。

标签： ENC降噪声学回声语音识别 USB声卡麦克风阵列

上一篇： 浙江麦克风阵列特征

下一篇： 云南量子ENC降噪介绍

商机详情 -

深圳语音交互声学回声环境噪声抑制算法

扩展资料

声学回声热门关键词

声学回声企业商机

声学回声行业新闻