您好,欢迎访问

商机详情 -

河南电视声学回声处理算法

来源: 发布时间:2023年04月02日

    也能够更清楚地看到这里面可能存在的回授现象。部分工程师在调试远程会议系统时也许遇到过啸叫,那可不一定是本地系统没调好所造成的,你会发现,关掉终端一切非常正常。为什么绝大多数的远程系统没有啸叫呢?这还得感谢您还不算非常质量的网络。我们常说,距离产生延时,而在模拟音频大举转向数字音频、网络音频的,网络信号的延迟也为音频领域赋予了新的现象,尤其应用在远程会议这样的音频传输系统当中,它能将一次次回授剥离成一次次听似回声的现象,这就是网络音频回声。通常由A地发出的声源A在几乎不经过延迟处理的本地系统中,通过A地音箱扩声;而其经过网络终端编码送向远端时,除了考虑A地的上传时间X,还得考虑B地的下载时间Y。在这样一个架构在Internet网络传输环境中的声音,其到达B地扩声音箱出来的信号则是A+X+Y。经B地本地话筒拾取后的该信号,再由B地的上传网速(时间)Z、A地的下载时间W传送回A地扩声音箱,其表现出的信号则会出现一次A信号,及一次赋予了(X+Y+Z+W)时间的A信号。假设A地—B地传输时间总和为200ms,B地—A地传输时间总和为200ms,则信号的一去一回。体现在A扩声音箱中至少会存在A和A+400ms的信号,若反馈信号电平足够强。则再被话筒拾取。

     实现对整个声学回声路径的变化进行有效跟进。河南电视声学回声处理算法

河南电视声学回声处理算法,声学回声

    深入浅出WebRTCAEC(声学回声消除),前言:近年来,音视频会议产品提升着工作协同的效率,在线教育产品突破着传统教育形式的种种限制,娱乐互动直播产品丰富着生活社交的多样性,背后都离不开音视频通信技术的优化与创新,其中音频信息内容传递的流畅性、完整性、可懂度直接决定着用户之间的沟通质量。自2011年WebRTC开源以来,无论是其技术架构,还是其中丰富的算法模块都是值得我们细细品味,音频方面熟知的3A算法(AGC:Automaticgaincontrol;ANS:Adaptivenoisesuppression;AEC:Acousticechocancellation)就是其中闪闪发光的明珠。本文章将结合实例解析WebRTCAEC的基本框架和基本原理,一起探索回声消除的基本原理,技术难点以及优化方向。回声的形成WebRTC架构中上下行音频信号处理流程,音频3A主要集中在上行的发送端对发送信号依次进行回声消除、降噪以及音量均衡(这里只讨论AEC的处理流程,如果是AECM的处理流程ANS会前置),AGC会作为压限器作用在接收端对即将播放的音频信号进行限幅。那么回声是怎么形成的呢?如图2所示,A、B两人在通信的过程中,我们有如下定义:x(n):远端参考信号,即A端订阅的B端音频流,通常作为参考信号;y(n):回声信号,即扬声器播放信号x。

    河南电视声学回声处理算法搜索“声学回声消除”的相关文献,一共找到了3402篇。

河南电视声学回声处理算法,声学回声

    在这里我将整个回声路径分成了A、B、C、D四个部分。我们一起来看一下,ABCD里面哪一个环节有可能是非线性的?答案应该是B。也就是回声路径里面的功率放大器和喇叭,具体的原因稍后会做详细分析。接下来我想再解释一下为什么A、C、D它们不是非线性的。首先这里的A和D比较好判断,他们都属于线性时不变系统。比较难判断的是C,因为在一些比较复杂的场景下,声学回声往往会经过多个不同路径的多次反射之后到达接收端,同时会带有很强的混响,甚至在更极端情况下,喇叭与麦克风之间还会产生相对位移变化,导致回声路径也会随时间快速变化。这么多因素叠加在一起,往往会导致回声消除算法的性能急剧退化,甚至完全失效。有同学可能会问,难道这么复杂的情况,不是非线性的吗?我认为C应该是一个线性时变的声学系统,因为我们区分线性跟非线性的主要依据是叠加原理,前面提到的这些复杂场景,它们依然是满足叠加原理的,所以C是线性系统。这里还要再补充一点,细心的朋友会发现B里面有一个功率放大器,同时在C里面也有一个功率放大器,为什么经B的功率放大器放大之后,可能带来非线性失真,而C的功率放大器不会产生非线性失真呢?二者的主要区别在于B放大之后输出是一个大信号。

   

    n)后,被麦克风采集到的信号,此时经过房间混响以及麦克风采集的信号y(n)已经不能等同于信号x(n)了,我们记线性叠加的部分为y'(n),非线性叠加的部分为y''(n),y(n)=y'(n)+y''(n);s(n):麦克风采集的近端说话人的语音信号,即我们真正想提取并发送到远端的信号;v(n):环境噪音,这部分信号会在ANS中被削弱;d(n):近端信号,即麦克风采集之后,3A之前的原始信号,可以表示为:d(n)=s(n)+y(n)+v(n);s'(n):3A之后的音频信号,即准备经过编码发送到对端的信号。WebRTC音频引擎能够拿到的已知信号只有近端信号d(n)和远端参考信号x(n)。如果信号经过A端音频引擎得到s'(n)信号中依然残留信号y(n),那么B端就能听到自己回声或残留的尾音(回声抑制不彻底留下的残留)。AEC效果评估在实际情况中可以粗略分为如下几种情况(专业人员可根据应用场景、设备以及单双讲进一步细分):回声消除的本质在解析WebRTCAEC架构之前,我们需要了解回声消除的本质是什么。音视频通话过程中,声音是传达信息的主要途径,因此从复杂的录音信号中,通过信号处理的手段使得我们要传递的信息:高保真、低延时、清晰可懂是一直以来追求的目标。在我看来,回声消除。

     声学回声消除应用技术。

河南电视声学回声处理算法,声学回声

    只需要近端采集信号即可,傲娇的回声消除需要同时输入近端信号与远端参考信号。有同学会问已知了远端参考信号,为什么不能用噪声抑制方法处理呢,直接从频域减掉远端信号的频谱不就可以了吗?行为近端信号s(n),已经混合了近端人声和扬声器播放出来的远端信号,黄色框中已经标出对齐之后的远端信号,其语音表达的内容一致,但是频谱和幅度(明显经过扬声器放大之后声音能量很高)均不一致,意思就是:参考的远端信号与扬声器播放出来的远端信号已经是“貌合神离”了,与降噪的方法相结合也是不错的思路,但是直接套用降噪的方法显然会造成回声残留与双讲部分严重的抑制。接下来,我们来看看WebRTC科学家是怎么做的吧。信号处理流程WebRTCAEC算法包含了延时调整策略,线性回声估计,非线性回声抑制3个部分。回声消除本质上更像是音源分离,我们期望从混合的近端信号中消除不需要的远端信号,保留近端人声发送到远端,但是WebRTC工程师们更倾向于将两个人交流的过程理解为一问一答的交替说话,存在远近端同时连续说话的情况并不多(即保单讲轻双讲)。因此只需要区分远近端说话区域就可以通过一些手段消除绝大多数远端回声。

     非线性的声学回声消除问题。河南电视声学回声处理算法

回声来自于非预期的泄露,一般分为电学回声和声学回声。河南电视声学回声处理算法

    而正是这两级客观存在的物理声学现象,造就了我们所讨论的内容。在远程会议系统的终端(本地),为了实现多人互动、多人拾音等目的,系统声音免不了被放大还原,而在诸如此类的放大系统中,为本地音箱能够听到远端声音,并能把本地拾音信号传送到远端而互通。众所周知,话筒在拾取到放大后的音箱信号后,再次回授、无限循环而产生反馈现象,而系统在均衡声场后,该现象其实是可以得到明显改观的。但话筒的拾音灵敏度是不是可以无限大呢?不是,在足够电平条件下,它始终会因拾取到具有相干性频率相位关系的输入信号而建立起回授。上述啸叫现象并不是本文重点,但它为我们讨论接下来的话题提供了一个前提,那就是(同一个声场环境中)话筒和音箱无论怎么摆都无法做到完全的隔离,更别说空间声场条件有限的小中型会议室了。在一套有扩声、有拾音的远程会议系统中,为了防止信号回授,我们通常会有意识地将远端输入信号不再路由给远端输出。然而无法抗拒的是,本地话筒因拾取到远端传送至本地扩声的信号,仍可将声音重新传送至远端。这也是一种回授,明显的远程回授现象可使得系统发生自激震荡。通过一个简易的远程音频传输示意图。能帮助我们更容易地理解声音信号是怎样的流向。

     河南电视声学回声处理算法

深圳鱼亮科技有限公司位于龙华街道清华社区建设东路青年创业园B栋3层12号,交通便利,环境优美,是一家服务型企业。公司致力于为客户提供安全、质量有保证的良好产品及服务,是一家有限责任公司(自然)企业。公司始终坚持客户需求优先的原则,致力于提供高质量的智能家居,语音识别算法,机器人交互系统,降噪。深圳鱼亮科技以创造***产品及服务的理念,打造高指标的服务,引导行业的发展。