教你了解什么是美化声音
概述:教你了解什么是美化声音设计“美化声音”的算法的原则在设计算法之前,还需要跟大家普及一点。要做到声音的美化,就需要拥有高音质。因为只有高音质的音频数据才能体现出人声的细节,算法优化的空间也会更大。也只有在这种高音质的环境下,用户才会更需要使用美声。在设计美声
教你了解什么是美化声音
设计“美化声音”的算法的原则在设计算法之前,还需要跟大家普及一点。要做到声音的美化,就需要拥有高音质。因为只有高音质的音频数据才能体现出人声的细节,算法优化的空间也会更大。也只有在这种高音质的环境下,用户才会更需要使用美声。
在设计美声相关算法的时候,我们还需要考虑应用场景。我们将场景主要分为两种:一种是语聊场景,比如聊天房、在线教学等。另一种歌唱场景,比如互动直播、线上 K 歌。在歌唱场景中,绝大部分情况都会带有伴奏、背景音乐,背景音可以起到部分掩盖人声瑕疵的作用。而在语聊场景下,基本上是纯人声,没有音乐,所以人声的瑕疵不会受到音乐遮掩。
我们需要对两种场景的算法设计,以及背景音的融合等方面,做差异化处理。除了场景,还要考虑另一个维度,那就是性别。男声和女声的主要区别是音调的高低不同。男性声带较长、较宽、较厚,所以振动时频率低,发出的音调也低,女性声带较短、较薄、较窄,所以振动时频率高,发出的音调也高。生理条件的先天差别,决定了男女声的发声比例的不同。从审美角度来讲,一般没有人希望男声温婉如玉,女声声如洪钟,所以生理和先入为主的审美决定了男女美声调校方向需要进行差异化处理。语聊场景下,人声瑕疵无遮掩,因此一般单纯的语聊美声处理不用考虑背景融合度、添加混响等问题,着重追求人声的可懂度和耐听度。在歌唱场景中,绝大部分情况都会带有伴奏、背景音乐,背景音可以起到部分掩盖人声瑕疵的作用,而语聊场景基本上是纯人声,瑕疵无遮掩,这样会对算法处理和背景融合等方面提出差异化的需求。
最后的最后,还要考虑这种美声功能的使用场景:非实时场景:比如我们在本地录制好了歌曲,然后再进行声音美化,那么这种场景下,对于设备性能的要求没有那么苛刻,在设计算法的时候,对算法的处理时长、性能消耗等方面的要求都比较宽松。实时场景:比如我们语聊房、互动直播时,需要做声音美化。
这种场景需要声音进行低延时传输,那么算法也是在主播与观众交互的过程中实时进行的,这就对算法在算力、延迟、系统资源消耗方面有较高的要求。所以在设计算法的同时,还需要针对实际数据表现,将算法产生的延时、资源消耗降到最低。
为了实现美声效果,往往需要对声音的多个维度进行修改,我们声网Agora是采用链路式多模组联合算法框架,对人声的音调、音色、韵律、节奏、空间、氛围甚至艺术类型等不同维度进行调整。