自动增益控制agc课程设计(自动增益控制英文缩写)

本文主要介绍自动增益控制agc课程设计(自动增益控制英文缩写),下面一起看看自动增益控制agc课程设计(自动增益控制英文缩写)相关资讯。
音视频会议、麦子直播、短视频已经成为人们 人们的工作、教学和娱乐都离不开音视频实时通信等关键技术的广泛应用。在音频方面,可以预见的是,客户的多样性 业务形式、环境的复杂性和接入设备的差异会带来一系列问题。我们意识到单一场景的技术和策略已经不能满足日益暴露的在线问题,唯一的出路就是音频预处理3a(aec,ans,agc)算法走向全场景适配。为了解决复杂环境下的噪声问题,我们推出了阿里云降噪-语音增强算法,强化了传统降噪技术在非稳态噪声抑制方面的缺陷;为了解决音量问题,我们推出了ali agc-自动增益控制算法,大大改善了不同环境、设备、场景下音量不均匀的问题,比传统的webrtc agc更加智能。
什么?;现有的webrtc agc算法有什么问题?在《详解 webrtc 高音质低延时的背后 — agc(自动增益控制)》 ;的文章,深入解读了webrtc agc不同模式的核心原理。基于固定增益模式的扩展数/模自适应模式存在响应过度和不及时、补偿增益估计不准确等稳定性问题。我赢了。;这里不展开技术细节。从方向看,webrtc agc s追求改编的目标是对的,也是我们首先需要优化的部分。我先来看看我们在网上遇到过哪些痛点:
(1)音量不均匀的问题在多人会议中,音频采集的效果受到设备差异、环境、发言者本人等多种因素的影响。如果只采用固定增益的方案,在听感上会出现不同扬声器音量不均匀的问题,持续的音量过低或突然的音量过大只能通过频繁调节设备播放音量按钮来解决。在直播/短视频之间切换时,难免会遇到类似的问题。
(2)环境中的噪音被过度放大。在开放的环境中,如办公室和商场,当说话者打开麦克风,但没有。;t说话时,周围的噪声很可能被认为是扬声器 的声音。传统的自适应方案会触发增益补偿,导致整个过程噪声明显,严重影响会议和直播的体验。
(3)连麦等娱乐场景的直播,背景音乐波动的问题。在连麦等娱乐场景播放背景音乐是很常见的。很多主播会用声卡,一般业务层选择关闭agc,把调节音量的权利交给主播。宏观上,它可以 t解决不同直播之间音量差异大的问题,主播可以 甚至检测不到音爆和低音量。所以这类场景需要开启agc。而传统的增益补偿策略并没有区分人声和背景音乐,必然会带来未来音乐音量的波动是观众无法接受的,用音乐控制现场是agc面临的最大挑战。
因此,鲁棒自适应模拟/数字增益是非常基本的,它只能解决(1)中的非均匀音量问题。我们需要添加其他方法或模块来处理特定场景下的音量问题。
aliagc算法优化方向阿里云视频云音频技术团队为了追求极致的音视频通话体验,agc是音频3a算法中的最后一个环节,我们提出以下要求:
(1)增益补偿和自适应调整策略响应迅速,实现二阶收敛;
②增益范围大,可以覆盖大部分移动和pc设备;
③在噪音、音乐等复杂场景下,稳定性好,不触发失调;
(4)功耗低,音质无损;
为了实现上述目标,我们在webrtc中基于agc框架进行了以下主要优化(详见《详解 webrtc 高音质低延时的背后 — agc(自动增益控制)》):
①数字增益自适应方案:新增vad/包络检测模块,实时计算音频信号音量,用于快速确定最大增益上限,从而指导当前数字增益调整;
②模拟增益自适应方案:基于检测到的人声/噪底量,用于指导模拟增益调整,使采集到的噪底和人声音量控制在目标范围内;
③场景自适应方案:增加语音/噪音/音乐等多任务检测模块,动态估计当前噪音水平、音乐等状态,用于激活相应的调整策略,使算法适应当前大多数应用场景。
④音频统计数据的构建:增加了语音/噪音音量统计、事件检测等数据,为其他模块提供准确的数据支持。同时,通过数据上报渠道完善了埋点,丰富了后台仪表盘。
aliagc算法的效果就是基于以上难题。让 让我们来看看优化的aliagc的效果:
(1)收敛速度快,采集量极小时,需要5s-8s;对于-30db →- 3db;正常情况下:-20db →-3db只需要3s-5s。
反之,当采集量较大,数字增益严重过剩时,向下调整的收敛速度也很快。绝大多数场景基本都是一句话就收敛了。
(2)数字增益自适应更新能力从前面的案例可以看出,初期音量极小(-34db),中后期音量比较大。从输出结果可以看出,最终的输出音量基本都在[-1db,-3db]的目标范围内,听感上没有差别。
让 让我们看一个更极端的例子:声音由大到小交替变化。如果增益没有及时自适应调整,我们会看到峰值被限幅器拉平,小音量没有及时调高。要在简单的文章里看到)。优化后可以看到整体输出音量稳定,波形保持完好。
同时我们录制了一个多人会议中参与者f在本地播放的音频数据,参与者a到e的最终推送音量基本平衡到-3db左右。对于参与者f来说,他的主观听觉基本相同。
(3)噪声环境下的增益控制。类似地,我们选择了一段在真实会议中录制的流式音频数据。在演讲者发言之前,其他同事正在环境中开会。由于传统自适应方案缺乏对嘈杂环境的监控,其他同事的声音也大大增加。优化后的方案避免了这种情况,自适应逻辑只在说话人开始说话时才被激活,从而避免了周围嘈杂声音增益过大的问题。
同时,对于原始采集的本底噪声较大,存在嘈杂语音的情况,说话人在说话前增益保持相对较好,不存在因为agc的增益而导致本底噪声被大幅放大的问题。当说话人开始说话时,触发增益的自适应调整,最终增益到合适的位置。
(4)在娱乐现场获得控制权。我们选择了一段主播和背景音乐交替出现的素材。在传统的增益补偿方案中,人声和音乐是一视同仁的,最终都得到改善,会发现背景音乐有波动。在优化后的方案中,由于音乐检测模块性能良好,会引导agc控制音乐部分的增益,输出结果符合预期。整体来说,增益只是根据主播声音的部分自适应的。
全场景适配,aliagc算法的后续优化目标。阿里云视频云音频技术团队提供的音频3a算法(不限于3a)是alirtc 的推送流。所有的音频指标都不能有明显的缺点,三者在复杂的应用场景中缺一不可,共同影响音频质量和主观体验。我们可以 不要单独优化某个算法。比如agc增益过大,不仅会增加噪声,还会增加对端收集的回波的非线性成分,影响回波抵消的效果。另外,降噪能力差也会限制agc能达到的最大增益上限。同时,在嘈杂的环境中,我们可以 t单纯依靠agc来控制嘈杂的声音。毕竟检测中存在误检的可能。如果默认使用智能降噪,这类场景下agc的压力会大大降低。
在后续的优化中,我们会根据场景逐步细化3a的配置,整体看3a的最终效果。对于单个算法的优化,各大厂商的差距在缩小,个性化、差异化的创新显得尤为重要。一方面,aliagc算法需要积极探索在线badcase,不断加强稳定性建设;另一方面,要深化机器学习、阵列等技术的探索和应用,丰富产品的亮点。
视频云技术与应用;是你最应得的。关注音视频技术的官方账号,每周推送来自阿里云的实用技术文章,在这里与音视频领域的一流工程师交流。官方账号后台回复【技术】可以加入阿里云视频云产品技术交流群,与行业大咖探讨音视频技术,获取更多行业最新资讯。
标签:
增益音量
了解更多自动增益控制agc课程设计(自动增益控制英文缩写)相关内容请关注本站点。

华为手环b2商务版怎么查找手机,华为手环2丢了可以定位找回吗
学电子商务需要电脑吗-(电子商务专业需不需要电脑)
hpstatusbl.dll(hppatusg01.dll)
平板怎么切换中英文(平板怎么切换成中文)
手机怎么刷第三方rec,红米note2 怎么刷第三方recovery
自动增益控制agc课程设计(自动增益控制英文缩写)
西安华为电脑维修点查询,华为电脑维修点查询附近的地址
怎样用手机使用u盘(如何用手机使用u盘)
小程序意外退出怎么办理(小程序意外退出怎么解决)
彻底win10关闭自动更新方法(联想win10关闭自动更新方法)
什么播放器可以免费下载音乐,现在什么播放器可以免费下载歌曲
组装一台3000左右的主机配置(3000价位的组装电脑主机)
windows10环境变量设置(w10的环境变量在哪)
2020年什么牌子的电脑好(2021电脑牌子排行榜)
丰田电池价格,丰田k罗拉电瓶多少钱
大学生笔记本电脑多少钱合适用,上大学买笔记本买什么价位的
windows7专业版32位激活密钥(win7专业版32位永久激活码)
三星fold和zflip区别(三星zflip和三星fold哪个好)
苹果6电池怎么保养好(苹果6电池怎么保养和维护)
系统之家win7系统安装教程(系统之家win7安装步骤)