响度与响度处理经验谈【转载】

琴韵晓波 · 发表于 2021-8-8 19:28:54

马上注册，浏览本站更多内容。

您需要登录才可以下载或查看，没有帐号？立即注册

x

楼主琴韵晓波说：
以下技术性文章转载自midifn。

琴韵晓波 · 发表于 2021-8-8 19:30:45

沙发琴韵晓波说：
响度与响度处理经验谈（上）响度测量

1）响度测试

当今的媒体形式非常多样，无论对于广播电视这种单向的传输，还是多平台的互动娱乐或者网络媒体来说，响度不仅仅是一个信号传输上的技术标准，也是一个直接影响消费欣赏行为的重要问题（例如响度之战）。一首音乐作品，可能同时在所有这些平台里被播放，这在数字传播领域已经是件再正常不过的事情了。然而，这样的传播方式对于内容制作方来说的确是个非常棘手的事情。我们如何能够确保一个声音在不同平台播放时都能获得比较理想的效果。于此同时，我们还面临不同格式间的频率损失和动态损失。虽然，这种所谓的“效果”好坏是有时候非常主观的，但是在技术上，可以建立一些基本的框架规范，这就是常说的“频响”。不同频率的振幅响应，对于任何一个声音的响度来说都是决定性的。我们目前面临的问题其实不是造出这个会出声的一个数字文件，而是如何控制这个声音的不同频率上的振幅，或者说电功率，或者说响度。这时候我们面临一个问题：何为“响”、何为“轻”,我们需要一个客观的基本参照和依据。

目前对于“响度”这个事情的度量，已经有比较完善的体系，它和我们现在采用的“dB”测量体系一样成熟。我们先来了解一些音量和响度的参考值，以便于你更好理解其中的状况。传统上，关于一个声音样本的响度是有一些暧昧的标准的：

Music RMS = -16dB （peak小于等于-3dB）
Voice/Speech RMS = -12dB（peak小于等于-3dB）

以上那两个标准更多的是业内人士的共识和普遍的习惯，并且被大多数人认可的。然而到了今天，所谓的业内人士越来越多的不那么专业和有操守了。很多入行已久的甚至不知道还有RMS这么一说，并且还是做录音的、做后期制作的。所以每当有前辈训斥响度不节制的时候，后生们一脸无辜地看着前辈，转身暗想“what the f**k is?”。

另有几个数值供参考：

90年代古典音乐CD的平均响度RMS在-21dB。
好莱坞电影声轨终混后的RMS基本不超过-20dB，有些甚至是-24dB（目前主流是-24dBLKFS）。
符合工业标准的手机扬声器在样本RMS超过大约-8dB就开始爆音了。

你也可以去找一条高清版本的好莱坞电影Trailer，来看看它的RMS是多少....一定比你预想的要小很多！而且波形大多非常好看：波形起伏有致，不会连续长时间出现柱状体波形，而动态频响非常饱和。

上图中：第一条是电影Shooter（2007）的宣传片声轨，第二条是2015年初星战7的前期宣传片声轨。

RMS(dB)

LKFS(dB)

LRA(dB LU)

Shooter

-19.5

-17.3

13.9

SW VII

-12.26

-10.3

20.7

而以上这些数值，一方面和习惯经验、审美有关，另一方面也和一系列制造工业标准、广播标准和影院标准有关。其实大部分符合工业标准的产品，都能够在播放上把声音放到足够大，并且音质在很大程度上取决于播放设备的质量。尤其是影院，这一标准和流程是非常严格执行的（天朝不算）。而现在普遍的听觉观念并不如此，即使普通耳机的阻抗已经降低到完全不需要耳放的时代，样本响度也是越来越大。

这里是电影“法老与众神”的声轨(720P, AAC压缩)，

我抽取了中间44分钟做了一个响度检测：

随后用了Soundforge Pro for Mac 2做了RMS检测：

检测的数据结论：

LKFS= -23.5dB
RMS= -26.69dB
LRA= 16.4dB LU

小知识：这里的dB，全称都是dBFS（Decibles relative to Full Scale）。Full Scale意思就是：全频段20-20kHz、全动态(根据采样率，CD为120dB范围，DVD是144dB），国内对此的中文术语好像叫“全幅”。

现在问题来了，我们应该怎么看表头？我们先看一下目前普遍使用的表头都有啥区别。首先，比较古老的表头，我们都知道是VU表。

（0为上限，超过0的红线部分表示允许接受的额外冲程Headroom，主意它的单位不是dB。）
VU表是依靠指针的快速运动来告诉我们目前声音信号的电压变化情况，但是指针的摆动时靠机械方式来进行的，所以它的反应其实存在一些延迟，并且非常小的快速波动也可能反应不出来。而我们现在最常使用的电平表PPM表(Peak Program Meter，左侧竖条)：

它只反应当前的峰值情况所以又叫作True Peak表头(dBTP)。PPM表定义的音量上限是0dB，超过0dB的算作0dB，但是有些专业的高精度表头能够显示0dB以上的情况。VU表头里上限的0，它不代表“0dB”，而是相当于PPM表的－20dB。也就是说，当VU表冲到0的时候，其实PPM还有20dB的富余空间允许声音运动的。有些PPM表里也会显示当前的平均峰值。

由于指针的物理性能限制，VU表所能显示的主要是电平的相对运动状态。运动幅度越大，表示动态越大。而PPM则主要显示出当前的峰值情况。两者都不能相对客观地显示出“响度”的情况。目前传播领域主要采用的是LKFS响度表。

Waves WLM：

TC LM2n：

两个表头同时检测对比：

（非常明显，它们的数值有差异）
其实当前国际通行的响度标准有很多，最新的、最普及的是ITU-R BS.1770-3标准（2012年制定），目前国内广播电视领域也明文规定采用这一标准。这个标准是N年进化的结果，最早也是由BBS和EBU（欧洲广播联盟）建立的。它也有一些为了不同应用领域的特殊改进体，例如BS.1770-2、EBU R128、TR-B32等等。在互动娱乐领域，目前Xbox One和PS4都已经引入了响度测试作为TRC标准，TRC标准是一种不可妥协的技术标准，未能达到这些技术指标的游戏产品是不允许在这两个平台上发布的，也就是说那样的产品不能在单机平台上市。同样，即使在iPhone、iPad或者一部三星手机上，DA转换的频响动态范围也是有一定标准的。这些标准不仅仅是为了工业化大批量生产的成本和质量平衡，同时也关系到用户的听觉体验。换个角度说，手机制造商很清楚，没有一个专业的制作人或者专业媒体会对你的手机喇叭做全面妥协，因为人家已经非常成熟了，手机厂商只能优先确保自己的手机喇叭可以很好地播放Tyler Swift的歌，而不是让Swift的制作人迁就我的手机。为此，各大厂商也参与或者参加了一系列的相关响度标准。具体可以参见：

http://www.tcelectronic.com/loudness/literature-glossary/
http://www.tcelectronic.com/loudness/broadcast-standards/

Waves WLM预置的响度标准：

TC LC2n预置的响度标准：

和我们日常工作相关的，最终决定采纳和推广相关标准的主要是两家机构：
ITU:International Telecommunication Union（国际广播电讯联盟）
EBU: Europe Broadcast Union （欧洲广播联盟）

在ITU和EBU的响度标准以及计量标准里，目前广泛采用的是“响度表”(Loudness Meter)，它和VU表、PPM表的意图是完全一样的，是一种新的表头。但是这种表头的界面上会出现一些全新的术语。了解或者理解这些术语，对我们的响度控制、动态控制有着非常非常非常重要的意义，是你工作的重要依据。先来看看这几个术语：

LKFS：Loudness, K-weighted, relative to Full Scale，全幅K权重响度单位。K权重是McGill大学和CRC（位于加拿大的通讯研究中心）共同研究出的成果，它是一个非线性的曲线，用来表达人对响度的感觉，据称是目前最公认的可以准确表达响度感觉的算法。这个算法对于数字信号的放大是具有重要意义的，因为无论广播电视还是游戏，都要解决声音在放大或缩小时候要确保波形失真非常小，并且符合听觉习惯。需要清楚的是，LKFS是一种响度计量单位，1LKFS = 1dB，所以后面的文章我会用“dBLKFS”来表达。

LUFS：Loudness Units Full Scale，也是一种响度计量单位。本质上和LKFS没有区别，LUFS只是EBU对LKFS的称呼术语，以显示自己的逼格。1LUFS = 1dB。

Gating: 门限，并且是个现在进行时的动词。这个参数不是所有响度表和响度处理工具里都有的。比方说古典音乐和电影，经常会出现大段的非常安静或者小声的段落，但有时候会非常大声，对于这样的复杂情况，我们用什么样的方法来描述它的整体响度感觉、甚至是提供一个比较客观的测量依据？Gating的作用就是忽略一些比较低的电平，比方说常见的低于-45dB的都忽略掉，那么剩下比较大声的声音就可以用来描述我们的感觉。对我们来说，或许还有另一个非常重要的帮助：响度的判断依据，尤其你的听感，是需要一个比较稳定的依据的（后面我会提到这个问题）。比方说我们日常生活中听流行音乐比较多一些，无形之中，我们对流行音乐的各种音量和响度变化是有一个听感指标的，尽管很模糊，但多少还是有的。而当我们在处理一个电影或者游戏的时候，往往就会茫然，不知道让它怎么响才好。那是因为我们对那种复杂的声音变化、或者我们不那么熟悉的声音，在响度上的判断依据过于模糊甚至没有。而流行音乐往往可以作为我们的判断参考。而这个门限的作用方式就是这个目的。当然，是否打开Gate、以及打开Gate后得到的响度值体系，依然是需要你自己去建立听感的，甚至是需要训练听感的。Gating的作用就是帮助你建立响度的对比测试判断体系。

大多数时候我们不会听到音量持续不变的声音，所以1770标准采用的响度测试方式是：连续30分钟播放的测试时间内，平均响度在-24dB LKFS左右(EBU标准是-23dBLUFS)，而上限是-12dBLKFS，超过-12dBLKFS的被认为响度过载。

对于游戏来说，这个问题也因此变得复杂起来，因为几乎没有一个独立样本会持续那么长时间。所以，我们会更关心短时响度(short term loudness)，和游戏运行时候的平均响度Average Loudness和Max Short Term Loudness（短时最大响度，一般测量400-3000ms之间）。当然，有时候我们还要关注低响度状态的持续时间和响度值，这也是非常重要的。如果低响度状态的持续时间和响度值过低，那么整体听起来就会过于清淡了，甚至有些玩家的耳机会出现啥声音都没有的情况，这种感觉是非常不自然的。其实，不仅仅在游戏整体输出的时候，即使在游戏的BGM后期制作和平衡时候也是必须要考虑这几个数值的，尤其是低响度状态，往往是容易被我们忽视的。从下面的截图里可以清晰看到这些数值。

（至于这些数值对你有啥意义，这的确是一件需要听觉训练的事情，下文提供了一些我个人的经验分享）
为了让你有更直观的关于响度的认知，找到了一份不错的图,从而帮助你了解不同媒介平台的响度范围标准：

最近两年响度表插件也变得比较多了，像TC Electronic这种常年主要干这事情的公司来说，这件事情可以做的让人很放心，好看又好用。你可以清晰观察到一段时间里响度的变化范围，也可以导出一张类似手纸一样长的表格陪你度过美好的厕所时间，也可以通过极其快速的数字指针实时告诉你目前的峰值和平均值情况。

注：LC2n不仅是个响度表，它还可以对样本进行响度处理（可以单独运行，也可以作为Offline插件使用），而它的纯表头版本LM2n则只是一个响度表。它的左边是原样本，右边是处理后的结果。

LC2n提供了一些目前比较常用平台的响度预设，比如iPhone和iTunes，可以根据需要直接选定了处理即可。但这个工具目前还是比较坑人的，比如说批处理之后总是会把分贝值加到样本名称里去...并且没有选项取消这个动作。

这有一条GRP在1990年出版的Dave Weckl的录音(44/16 WAV)：

用标准响度测试得到的结果（左侧雷达图）

当我们切换到Mobile模式，并且让它为手机进行响度优化的时候，左侧雷达显示了当前样本在手机里播放结果，而右侧雷达则显示出响度标准建议的样子：

选GRP（已经倒闭）的作品是因为GRP是唱片业最黄金的时代制作的高质量作品，它采用的是模拟录音和经典的数字混音技术，所以在频响和响度控制方面具有代表性。这是一个比较典型的例子，左侧雷达显示出了一条样本在手机里播放的响度结果。为手机平台处理后的结果中，平均响度LKFS增加了大约3dB。但是LRA没有变化。我们来看下文件名：

上图中，上面是响度纠正后的文件名，标示出了目标响度结果。下图是处理后的波形显示：

http://html.midifan.com/download ... INT-16.1_LRA5.1.wav

再来对比一下原来的波形：

http://html.midifan.com/download ... _Of_Inspiration.wav

上例中，处理前后的响度大约差了3dB，而我们的实际听觉感受或许要比这个数值大一些。处理后的样本RMS是-19.3dB，并没有达到通常-16dB的强度，但是听起来音量很大。假如，我们把这条响度处理后的样本16kHz以上切除(API 560EQ)：

波形上看响度差异并不大，测到的LKFS响度是-16.9(切除前是-16.1)。

而实际感受的耳压响度却有非常大的不同：

http://html.midifan.com/download ... LRA5.1_Cut16kHz.wav

这个例子告诉我们，频响对耳朵感受到响度的影响是非常大的，这也是我们可以大加利用的重要手段，其实也是混音里常用的手段。

经过对比测试和游戏里测试，大多数样本和音乐在这个响度时候(-16dB LKFS) ，可以在iOS或者Android手机上有比较不错的表现。这个过程里，LC2n会对样本响度做调整，但不是简单的动峰值或者压缩，而是非线性的修改。我自己测试了一些巨大的声音很过小的声音样本在LC2n修改后的结果，非常棒！整体基本听不出来内容上的失真，音乐中各声部乐器的比例关系保存完好，整体频响在放大或者缩小12dB尺寸的时候依然能够保持同一听觉比例。而传统的插件在放大或缩小音量的时候往往会出现明显变形。

在你观察响度变化的时候：

不必纠结某些地方段短时间内超过规范响度。只要没有过载失真，短时（400-3000ms范围内）超出范围是可以接受的。如果确实太纠结了，只有通过砸钱解决，入门级至少是一辆中级车的价格吧。（当然，如何判断过载失真也是个很值得探讨的问题，不是说这个电平表红了就一定会过载失真，也不是说电平表不飘红就代表没有失真。以后有机会吧。）
你始终要清楚一点：我们要的是合理、合适的动态变化范围，太小也是不合适的。我们最终是要把声音动态频响控制在一个合适范围里。对于游戏或者soundtrack来说，大多数时候一条声音不会单独存在。从表头里要看的，更多的是一个相对量关系的变化。
任何一个表头，首先给你的是一个参考指标，仅仅是参考，最终结果是作品本身的需求和你的审美观决定的。尤其在你的听音环境不那么理想、你的DA转换和耳机也不那么可观的情况下、或者心情也不那么好（也可能太好）的情况下….等等，你的大脑一定会产生响度误判。长期用耳机也会存在这种问题，耳机会让你对声音的景深、相对动态等需要精确考量的指标产生一些错觉，因为声音离你过于近了。当然，有效的长期听力训练对于一个专业人士来说也是必须的。比如，你要能第一耳朵辨别出来这声音听起来太响是因为某个频段过大了、还是因为整体都太大了。

TC的PPM True-peak电平表是业内比较厉害的，它直接从采样点里来读取振幅数据，并且可以非常小的误差来显示两个采样点之间的电平差，而很多其他的PPM表其实并没有这么高精度，误差甚至高达3dB，换句话说，那样的PPM表是给你当VU表来看的，只能看一个大约的想对关系。当然，有时候我们的确需要能够充分显示想对峰值的电平表，比如混音。精确的PPM TP表还涉及到另一个问题：放大和缩小一个样本时候每个采样点的振幅偏移精度。不要小看这个问题，很多厂商给出的音量放大或者缩小功能是有问题的，能把一个正圆放大成一个椭圆。所以像Flux、TC、Sonnox和McDSP这些抠门的厂商为何要卖这么贵插件，原因也在这里。

呵呵...有些插件就比较奇葩，比如说Waves的WLM。我个人和一些洋人的测试表明，WLM的测试结果不那么准，甚至同样的样本每次都可能得到不同的测试结果。你可以随便找一条WAV的音乐，让WLM来检测一下，每次你得到的LKFS最终数值可能是一样的，但是在扫描过程中，你会明显发现每次情况是那么的不同。这就奇怪了！最终数据是怎么得出来得呢？并且WLM的界面无法让我们看到一段时间里响度的连续变化状态，它只能显示当前状况和平均值。当然，Waves说你可以把得到的数据导出(CSV格式)，而且还可以打印出来,做成一份好看的曲线图！（有这么闲？）实际上，大多数响度电平表都是这样的问题，你很难实时地、直观地看到一段时间里响度的变化状态。而这种连续变化的状态、以及这些大小响度之间相对变化情况，才是我们更需要关心的。否则我们不需要一个这么复杂的表头，而只要一个指示灯就可以了。

另一个比较廉价、但也比较靠谱的办法是在Soundforge里，可以打开自带的Normalize插件，把模式切换到RMS，就可以得这段样本的平均RMS响度。而它的界面里有一个选项：45dB等响度加权(低于-45dB的信号不做分析）

个人建议不要使用这个加权，因为你真的不知道结果到底对不对，。并且我对比了SoundForge Pro 11和SoundForge for Mac 2，同样的样本检测结果有时候居然会不一致！

同样那条Dave Weckl的录音，处理前的样本在SF测到的RMS：

用TC LC2n处理后的样本测到的RMS：

可以清晰地注意到,RMS数值和LKFS数值的差异是很明显的。

如果你已经对RMS的数值有一定的经验的，现在开始学习LKFS数值体系，你可能会面临一个问题：RMS和LKFS之间是啥关系？有一片技术文档提供了一份比较准确、但是难以捉到规律的对照关系图：

这份对照图只是在数据上进行了一些对比，以供我们参考。实际上，RMS和LKFS之间没有简单的线性数值关系，也不应该有！因为LKFS是包含了“听觉感知响度”加权的，而RMS本质上只是电学功率。所以，那样的比较其实意义不是很大。

请注意：RMS只是代表电功率。和你听到的响度存在很大差异！在使用RMS数值测量和调整响度的时候，大多数时候需要靠听觉经验来判断两个声音的频响和景深是否一致，然后和这里得到的检测数值做对比。尤其是低频，你的监听耳机大多不能准确反映50Hz以下的低频，而这些低频却会导致RMS的数值变得很大！这也是为何这里引入了一个等响度曲线加权的模式供你选择的原因。最简单的，只要一个－20dB的30Hz低频加入一段环境声，RMS和LKFS得到的数据就会有很大差异，你可能凭听力都察觉不到这个低频，甚至去掉这个频段的前后在波形上都不一定会有明显区别。这就会导致你在看表头和听力判断的时候出现很大偏差，表头和听觉经验之间似乎对不上号了。相信我，这种情况普遍的不能再普遍了！在任何一个游戏里，至少80%的样本都会存在这个要处理的问题。所以，好的声卡和监听、好的听觉训练和监听习惯非常重要！这时候，听力和好的设备就是唯一良药。

我个人往往是通过打开一个靠谱的频谱插件来观察确认的。因为后期大部分都在SoundForge里进行处理，所以RMS和实际听觉响度之间的关系最好还是要训练一下的。最常见的情况是：假如一个样本的RMS超过-16dB了，砍掉30Hz(24dB/Oct）以下就接近或达到-16dB了；并且你完全感觉不到低频少了点什么。可能的原因在于：你的监听未能反应出这个30以下的频段，也可能30以下的部分太弱了，但它足以让RMS变大；也有一种可能是（更多是这种情况），其他的频段把30Hz彻底掩盖了（声遮掩现象）。你只能通过好的频谱软件去了解这是哪种情况。（另请注意, Waves的频谱分析是业内的一个笑话，非常不准，尤其低频的分析显示！还不如soundforge自带的分析器靠谱。尤其是它的低频部分，有时候会显示出其他频谱未能显示出来的低频强度，这也算是一种特殊技能吧。）

注:关于RMS和LKFS之间的关系，学术界是有一些公论和成果的。具体在这里（http://www.tcelectronic.com/loudness/literature-glossary/）去找一份叫做Momentary Loudness RMS Filter Options的文章。

其实吧，响度测试的问题没有大伙表面看的那么神秘。对于我等凡夫俗子，只要会读这种表头就好了。习惯看表头之后，其实真正的难度在于你如何把一个声音控制在这个规范或者预期的响度范围里，如何把一个项目里成千上万的样本都调整到这样一个范围里去？如何确保最终整体的输出响度也会在你的预期范围内？或许你会想两个问题：

这怎么可能？
有这个必要么？
或许还有第三个问题：怎么整这事？

如果你诚心想遵守响度条约，但又对以上那些术语感觉非常异次元，那么最简单的办法是：记住那些常用的RMS或者LKFS响度标准，然后尽量让自己的样本符合它的要求。

关于这些插件的具体使用方式，我们日后探讨。这里介绍一下我个人的响度表使用方法：

大部分时候我能够依赖自己养成的听力来直接判断一段样本的响度（听力判断的结果和软件测试差值可以在3dB以内）。但对于有些频段比例特殊并且其中组成元素快速变化的声音，往往我还是会用响度表来验证一下自己的听力判断是否准确。这种状况通常是这个声音里出现的60Hz以下、4.5kHz以上的频段比通常的要大。还有一种状况是那些特别软、但是又需要强度的声音，例如天刀里的那些雾状特效。
对于音乐、soundtrack这些比较复杂的情况，我也会采用听力判断和响度表结合的方法。

个人经验：
无论哪种情况，最终的决定权在我的听觉感受上，而不是电平表、响度表。我会尽量接近计划的响度数值，但更强调整体的频响感觉。判断和修改的依据主要集中在单个样本的EQ上。只有在偷懒的时候才会直接动电平。只有当这两个基本动作都不能解决问题的时候，才会去考虑使用使用压缩或者混响去优化。对于响度技术标准来说，能够遵守就尽量达到，偶尔瞬时超过标准并不是不可以的。响度标准主要规范的不是瞬时响度，而是一段较长时间里的平均响度。这个是长期的有意识的自我训练得到的，其中也包括个人对声音的审美观。
任何时候看到表头显示的峰值电平或者响度比自己预计的高了或者低了，不用急着去调音量、压缩啥的，而是先分析一下：是局部某些频段问题还是整体问题？不同的情况需要不同的处理手法。
长期保持一个良好的监听习惯，是响度判断最好的办法。稳定的监听音量、足够大但是不刺耳的监听音量、以及对频率的判断，这都是要长期训练和保持的。甚至，有时候身体、心情不太稳定的时候，上班第一时间我会打开我最熟悉的唱片来听个5-10分钟，让我确定自己耳朵的声压感受标准。当然，我的监听音量（耳机和音响）基本是不会变化的，偶尔需要比较调整的时候，也会在比较结束后调回到惯常监听音量。我的监听音量设定依据是：听完一张40-50分钟的CD，在不觉得耳朵累的前提下尽量大声。太小的监听音量一定会过滤掉很多很多的重要细节！
没有一对监听和耳机是那么准确的，每次启用新监听或者耳机，我会花一些时间来找到自己的听觉习惯和这个新监听之间的差异，然后尽量记住。比方说Genelec 8060，这对监听在100Hz以下衰减是比较严重的，40Hz甚至可能听不到(Genelec的人宣称那是声学环境不够好，能不能有点起码的智商…)。所以，如果我要在8060里听到饱和的40Hz，那么在别的箱子里可能就过饱和了。
关于监听音箱、声卡的音频线和设置。通常专业声卡和调音台里、监听控制器的模拟输入输出端口都可以选择-10dB还是＋4dB，工作室里一般建议选择+4dB。这可以让你在同样的监听音量下，听到更多的细节。当然，尽量要用专业一点的线和插头来配合也是必须的。这种细节上的投入会让你的声音变得更专业，让你的工作也多一些享受。

有些同学比较理智，会说：国内山寨机一个赛一个响，三线城市满大街拿手机在听歌的，响得跟大喇叭似的。我们知道，听力其实是需要呵护的，作为声音的专业人士，我们的确有这样的职责去帮助别人养成更好的听觉习惯和更高的听觉审美。如果我们不做，还会有谁做呢？人的听觉习惯和审美都是被培养的，很多就是习惯。

这一系列文章的目的，其实就是为了探讨这些问题。一个受过长期且严格听力训练的设计师或者后期制作人员，在合适的专业监听条件下，是可以凭借他的听力来做到的。更多时候，看表头只是为了参考、或者更精准地把握情况而已。说白了，某个地方响了，你总得明确知道在哪里...响了多少...为啥响了…诸如此类的问题吧？再者说，看表头并不是那么有效率的事情，游戏的样本可能在一个项目里高达几万个，自己的听力应该就是最有效率的检测仪。出了Waves和TC，目前提供响度表的厂商还有:

Flux http://www.fluxhome.com/products/
iZotope https://www.izotope.com/insight/
VisLM http://www.nugenaudio.com/vislm- ... ation-aax-au-vst_11

以上内容供探讨和参考。若有错漏，请斧正，不胜感激！

文章出处 http://www.midifan.com/

转载文章请注明出自 Midifan.com

访问以下地址浏览此文的有图版本：https://www.midifan.com/modulearticle-detailview-5581.htm

琴韵晓波 · 发表于 2021-8-8 19:31:08

板凳琴韵晓波说：
响度与响度处理经验谈（中）响度、动态，与处理手法

响度、动态，与处理手法

我们这里谈到的“响度”，和测量城市噪声的响度、以及声压计测得的数值不是同一件事情。声压计其实只是测量声压，而声压其实是略大于大气压力的一种空气压力计量手段而已。它根本和“响度”是两种截然不同的度量方式。响度，虽然从基于电功率的角度来说是可以被测量的，但它完全不能真实反应我们对响度的感觉。实际工作当中，响度无论如何都是一个比较主观的量，其实是一个心理声学相关的问题。然而，除了情绪和心理因素，影响你对一个声音“响”还是“轻”的判断多少是有一些明确的规律可循的。主要包括:
   ADSR
   持续时间、混响
   频率与频响关系
   节奏与运动

ADSR = Attack, Decay, Sustain, Release

ADSR的另一个名称叫做包络(Envelope)。它描述了一个自然声音从出生到消亡的进行过程。这四个阶段的数值都是时间单位，通常用ms（毫秒）。Attack时间越短，那么响度会越大。比如打击乐器很短有15ms以内的，同样的电平，如果是弦乐（attack一般大于50ms），两者在一起，打击乐器就是会显得响一些，有时候会感觉响很多。再比如说枪声，attack小于10ms，同样的峰值电平，它就会比打击乐器感觉还响。所以有时候，动一下样本attack就可以解决它的响度问题。Attack在整个包络过程中对响度的影响是最大的。

持续时间和混响

一个声音的持续时间，往往是Decay、Sustain和Release这三个时间值来决定的。Decay时间越长，那么这样本较大声的部分持续时间就越长，所以它会听起来比较响一些。同样，Sustain延长也会让声音显得比较响一些，但是这个时间不是确定的！主要原因在于人的“听觉适应性”，这是人的本能反应。想一下，当你刚进办公室的时候如果注意到空调的声音，你或许会觉得很大，等你的注意力转移了、或者过了几分钟之后生理上适应了，你甚至压根就不会觉得有啥空调噪声....直到下一次你心情不好或者无所事事了…。这种听觉的自适应性，是“听觉主观选择性”的一部分，如果这部分功能丧失，你会变得异常可怕。简单说，听觉需要不断的新鲜感和变化来刺激你的注意力才行！但是作为声音设计师，有时候你不得不和这种本能的生理现象搏斗。所以有时候我们做出点啥过份的事情也是有一些原因的。

Release在这不是“延迟”，而是声音停止震动后、在空气中继续传播并且逐渐消散的那段时间，很多时候它会和混响有很大关系。Release是比较有趣的，通常一个音效里，我们是比较容易忽略它对响度的影响，甚至我们可能找不到所谓的Release段在哪里。比方说一个爆炸声，其实它的主体就是它的Release，因为爆炸本身可能在10毫秒里就结束了。其实，我们经常会说“我要这个声音利落一点、有打击感”。Release就是非常关键的一个问题！比方说，很多时候我们会希望一个声音要猛一些，但是又不希望它太大声，压住了别的声音，这时候你首先要考虑的就是要动一下Release的持续时间，不要让它“听起来很自然地消失”，尤其在做soundtrack的时候，快速打斗中你让一个衣服抖落的声音那么自然地款款而去，多数情况下其实并不是那么专业的做法，除非你需要某种特殊效果。Release会让声音显得拖泥带水的。再想想爆炸声，连续的爆炸或者大的碰撞，单层样本的Release部分音量看起来很小，几层一叠...3dB、3dB的就迅速上去了，结果就是糊成一片，这和射击声是一样的原理。但有些声音比如技能，确实会需要保留足够长的尾巴，那么这时候你可以考虑让Decay衰减快一些，让sustain时间的电平也加快衰减，那么即使Release长也一些也是容易被别的声音覆盖的。因为多个声音叠加的前提是它们之间的电平差要均等，保持一个适当低电平的Release就可以避免这种踩踏现象。

另外，混响也是会造成尾音变长，混响的前期反射也会和干声叠加导致整个声音变大声。这不见得是个坏事情！在所有这些现象中，每一种情况都是可以被恰当利用来控制响度的。比如说，UI的声音，在日系游戏里、尤其典型的事PS3、PS4的系统声音，那些声音非常小声，但是你可以清晰听到。为啥？其中有两个原因：首先它的混响一般都比较长，在1-1.5s之间，这种混响延长了本来非常短促那种小声音（听起来小就是因为声音太短了），所以你感觉到的响度变大了；其次，合理的混响（相对于BGM的混响）类型，可以让声音处于一个比较新鲜的、或者是不那么“自然”的声场里，而这种非自然状态或者新鲜感会吸引你的听觉，转而感觉它变大声了。

如果这个声音持续时间很长，比如超过60秒的一段音乐，用ADSR这样的方式去描述显然也不太合理，所以引入了另一个术语：Shape。Shape是一段声波连续峰值的外轮廓，改变这个轮廓就可以改变这个声音响度变化，这种手法称为“塑形Shaper”，也广泛用在合成器技术和效果器技术中（以后有机会咱们可以聊聊）。Shape也是我个人使用很频繁的一种控制声音节奏和响度的手法，尤其在后期润色优化的时候。Shape的本质并不是改变RMS，而是改变峰值的变化状态。让这个持续的声音在某些不那么重要的时间下去，而在某些我需要的地方上来一点，这样可以影响你的注意力，从而达到响度变化的结果。

关于响度的更多具体资料，可以去看看我年轻时候和安栋老师合作的一本书：数字音频基础

这本书里提到了一系列关于响度的数值影响规律，可供参考。

频率

我们都已经知道等响度曲线那个事情了。等响度曲线的作用和意义之重就不需要多啰嗦了。这套曲线告诉我们的最基本的现象是：频率和Attack一样，本质上影响了我们对响度的感受。尽管如此，从我的观察经验和自身的制作经验来看，通过频率对响度进行控制，往往还是容易被忽略的。比方说手游，手机扬声器在350Hz以下大多都快速消失了，多数玩家不会戴耳机玩游戏。这种情况下拼命推一个爆炸的低频，只会导致一个结果：声音爆了，并且把别的声音也给压掉了，并且声音显得闷闷的。其实我们都有一种体会：越是大的爆炸，越是比较沉闷的。难道没有高频么？不是，低频把高频给掩盖了而已！所以，这种情况下你要声音保持一定的亮度，必须要提升高频，同时衰减不必要的低频。这在音乐里混Bass是最典型了：要让一把Bass显得有力浑厚，单推低频是没用的，出来的只是软软的绳子，而不是蟒蛇一样的有力的，更好的方法是去动一下高频(4kHz以上）。但这样一来也会导致整个音量上升，怎么办呢？衰减中频和中低频呗！中频1-2kHz)往往会让一个声音显得很近，也会显得很响，它也会很大程度上掩盖掉高频和低频。对于有些风格的音乐来说，中低频也可以换成是低频，看需要了。所以，最有效的解决音量和响度的办法不是去拉电平，而是砍掉一些中频(1-2Khz)或者中低频(500Hz左右）。如此一来，你Bass的高频和低频也不需要提升那么多就可以显现出来强度了。此时，你甚至可以考虑衰减这Bass的52Hz以下部分，把这部分低频让给别的乐器。好吧…这分明和混音有关。是的！但这几乎是每个声音设计师都要学习和掌握并且不断进步的一个重要点！混音主要要做的事情不是拉推子，而是通过EQ来解决每种乐器的响度、景深和空间问题。而且EQ的种类永远不嫌多。

再举个例子，1kHz和500Hz的故事。大部分声音的强度都会集中在500-1000这个范围里，比较强壮的声音则集中在250Hz周围。如果希望一个声音听起来很大声、但又不会冲着你脑门，那么可以先试试切掉1000Hz，动作一定要狠，先切到底，看这个方法对是否对这声音有效，有效的话就慢慢往回拉。比较忌讳的动作就是衰减的时候一点点往下拉...结果这细腻的变化把自己的心都化了...没方向了呀！假如说，我希望一个声音很猛（低频），又很结实（中频1000左右），但有不会盖掉那些小声音，这时候可以直接向500开刀，通常就会在250-500之间。

你需要清楚意识到，每个声音，都一定存在它的一个主能量频段！只要你动了这个频段，那么它的整个声音响度就会被改变！也可以说，这个频段对于这个声音来说是最主要的，其他部分都是可以酌情清理掉的！等你具备了足够经验之后，你会发现，任何一个声音的任何一个频段都是可以随你的喜好来的！比方说500Hz对于一把电箱琴的音色来说是致命的，但是如果这把琴只是用来补偿节奏的呢？500Hz一刀切掉完全不影响它的音乐功能，那为啥不切掉呢？事实上很多音乐里，节奏功能的电箱琴500Hz以下被干掉太正常了。这个事情告诉我们一个重要的道理：每个样本都是为整体服务的，它的唯一特征是它存在的根本依据（不然要他干嘛？），我们可以选择保留这个特征，也可以选择修改他的特征，但无论如何，我们优先保留它对整体有用的功能部分，而其他都可以作为次要频段存在，是随时可以被衰减甚至切掉的。如果你想保留，首先想一想：有必要么？其次再想想：次要频段是否可以起到足够衬托作用？

另有一个有趣的例子，很多成年人的听觉频率上限其实达不到20kHz，我自己的听觉上限最近几年一直稳定在18.5kHz左右，而18kHz的正弦检波足以让我的耳朵感觉凶猛的针刺感。还有指甲挠黑板的声音，大部分人都会觉得那个声音很大并且非常刺激，然后用声压计测试到的电平其实并不高，瞬间电平可能比较大，但RMS都很小。

对频响的经验和认知，很大程度上取决于你的混音水平和经验。而混音首先关注的是一个作品整体的表现，所有细部的调整都是为了整体服务的。无论游戏、影视还是音乐的混音，每个元素在其中承担的功能和效果决定了它应该被设定到哪个位置和强度。

节奏与运动

我们大多数时候面临的声音都是比较复杂的、持续运动的声音。这时候声音的节奏和运动状态也会直接影响到我们对响度的感觉和判断。比方说在很多电影里，在一个大的爆炸前（通常是全景镜头），会有一个非常20-80ms的短时空缺(Gap)，甚至连音乐也会对白啥的也会被急停，随后的爆炸就会让你感觉很大声。但如果你把这个样本提取出来，或者直接去测试一下它的电平甚至RMS，你会发现这个爆炸声音其实远不如你感受的那么大。

产生这种听觉效果的原理很简单：动态。动态在声学上的定义就是：音量差。你可以简单地认为它就是“峰值电平的差”，而现在响度计量比较成熟后，我们引入的是LRA作为响度差来描述动态。这种手法使用非常普遍，尤其是一个大的爆炸或者Stinger前面铺垫的是一个Reverse的或者渐强的声音。或者为了平衡前后两段声音的比例关系，或者为了后面的撞击爆炸不至于过大。有时候，后段声音的峰值不需要很大就足以让人产生很大声的错觉。这里的技巧在于，如何把握前后两段的峰值差，以及这个空隙的时间长度。在很多好莱坞电影里，这个空袭甚至大到1甚至2秒也有可能。这种留白式的戏剧性效果可以产生很大的听觉冲击。甚至，后段的峰值不一定要比前段的峰值大，也可以获得很特别的效果。

除此以外，两段相连声音的主频段的差异也可以形成非常明显的冲击感。想想鼓的节奏，基本的配比是一只底鼓和一只军鼓，两者的主频段相差非常大，即使同样的峰值或者RMS，两者合理序列依然可以产生足够大的响度感觉，例如Drum & Bass、Hiphop就是很典型的例子。这里有两段样本，后段的Stinger是一样的，但是段Reverse的主频有明显不同，我们可以轻易感受到最终结果上的差异：
[下图中，深色划出的部分是间隙，约100ms]

来感受一下响度的区别，单纯的Stinger：

http://html.midifan.com/download/game/Stinger_with_no_gap.wav

有引子和gap的stinger：

http://html.midifan.com/download/game/Stinger_with_gap.wav

再来看看这段Beat的情况：［样例,第一行是原声］

http://html.midifan.com/download/game/acoustic_kit_raw.wav

A. 第二行，混响比较长的，音色间有明显的粘连

http://html.midifan.com/download/game/acoustic_kit_reverbed.wav

B. 第三行，没有混响，没有明显的粘连，甚至断开的（用了GATE）

http://html.midifan.com/download/game/acoustic_kit_gated.wav

混响对于响度的影响我们大多是知道的，但是我们需要明确知道的是，它不单影响了ADSR的比例关系，也会让某些频段加强，同时也会对你的听觉经验产生影响，这是一种综合的作用，对于声音设计师来说，这些因素也是可以拿来利用和分析的。尤其是断开的声音，它打断了主观听觉经验的连续性，从而让你失去对响度的准确判断或者经验判断。

虽然这是一段音乐性的Beat，但打击乐器的本质和音效基本没有啥区别，在物理声学里都属于“噪音”范畴。所以在演奏、音色创作和混音的时候采用的手法和音效创作处理是很类似的。而打击乐器在节奏、运动和频率差方面产生的动态感受比通常意义的“音效”更明显。我们也有另一个经验：如果鼓手演奏速度不那么稳定，甚至力度也不那么稳定，即使错音的音量不那么大，也会让你感觉很突兀，甚至会感觉错音那么大声。这个现象也充分说明了响度的主观性、经验性，以及主观选择性。

因为文字表达能力有限，还有非常多的情况和手法不能一一列举。其实，处理手法取决于你对声音的理解、想象，还要有足够的胆量去尝试。没有所谓对或者不对，只有好和更好之分。个人建议，可以多训练混音，无论是音乐的多轨混音还是soundtrack的混音，都应该长期训练。可以让你学到非常多的技巧和经验。

以上内容供探讨和参考。若有错漏，请斧正，不胜感激！

文章出处 http://www.midifan.com/

转载文章请注明出自 Midifan.com

访问以下地址浏览此文的有图版本：https://www.midifan.com/modulearticle-detailview-5587.htm

琴韵晓波 · 发表于 2021-8-8 19:31:35

地板琴韵晓波说：
响度与响度处理经验谈（下）游戏响度规划与量产控制

大多数时候，我们面临的声音是非常复杂的。在游戏里，每个独立声音的存在都是整体输出响度里的一份子。我们不可能像影视制作那样，随时根据需要来调整任何一个小片段的动态、频响等状态。所以这是个非常复杂的问题，想了很久都没想出来怎样一个思路可以把这事情说清楚。权且供各位争议一下吧。在这个问题上，每个有经验的设计师都会有自己的一套方法，其中有些手法是个人独特的，而有些是行业制定的一些基本标准。对于游戏来说，或许处理10个、100个样本还是很容易的，但是要平衡成千上万个样本的频响和响度，那就完全是另一件事情了。这就是艺术创作和量产的本质区别。

样本频响的控制，无论是何种类型的样本，即使是音乐和语音，都要为整体服务。所以，首先考虑的是让他们让出足够响度和频响給其他声音，这是响度控制的第一原则。就拿音乐来说，原作一定是出版级别的全动态频响，而在游戏里，和电影一样，必须要让出足够空间，多数时候它不应该是全频段的。

目前单机领域普遍采用的样本RMS响度参考量如下：

音乐：-16dB
环境声：-16dB
语音: -12dB
In-game音效: -16dB
UI: -16dB

（以上所有峰值都不超过-3dB，每种声音的RMS大约有上下2dB的允许差距空间）

通常的样本音量与FMOD音量设定如下：

在这个体系下，对应的常见流程是：

首先为一个游戏设定一个音量参照系。“音量参照”往往意味着，这种声音的音量始终作为整体音量的上限，只允许某些时候其他少部分声音等于或者略大于这个参考音量。大多数情况，选择的是对白(不是呼喝声）。有些设计师根据项目实际情况，也会选择音乐甚至UI作为音量参照。
同一种类型的样本，无论如何播放、它用来做什么，都会确保它们的RMS响度接近对应的数值。也就是说，除了语音，其他样本的RMS都是在-16dB左右。
在游戏中，这些声音的音量平衡，基本上要通过SoundEvent或者SoundCue的音量参数、Roll-off参数等进行。如此，你在平衡调整的时候才能有一个明确的“响”还是“轻的指标。
而色彩、频响方面的层次考量，往往实在项目中后期、至少80%的主要资源都进入游戏后，才开始对不同功能的样本再进行优化和渲染。其中主要是声音的景深和频响。随后再调整sound event volume。

这种处理响度和平衡的的思路，首先是把单个样本控制在一个相对稳定的量级上，随后通过逻辑来控制和平衡整体输出的响度。这种“传统”的平衡手法是有相当充足的道理的，也是基于商业影视和音乐领域多年来积累的混音经验。这种平衡的方式是以静态混音为主，辅助以一定程度的动态混音。原则上，动态混音平衡也并不是作为主要的和根本的手法，尤其在项目中前期阶段。这种做法的直接好处就是：任何阶段，无论样本还是Event Volume体系里，都会有明确的音量标准让你很容易去判断。当然，这种思路也存在一个比较大的问题：入门的门槛比较高，需要设计师有非常好的混音训练基础和听力基础。

应该说，这也是目前单机领域的主流做法，并且由于近几年更多影视职业背景的专业人士转入游戏领域，这种思路得到了更深的发展。目前的引擎也越来越需要设计师具备这样的思路。天刀就是个很有意思的例子。当我接手的时候，我做的第一件事情是：

把每一种类型（分类）的声音样本都快速浏览一遍，有些时候我是有重点地随机抽取。比如说技能打击和基本身体动作作为一组、呼喝语音和台词语音作为一组、战斗音乐和纯背景音乐作为一组。我要看的是这些样本在各分类组中的平均响度和基本响度差范围。
理解这些类型的声音在FMOD里音量参数的设定情况，以及通过一些参数和样本修改实验来建立我对这个引擎里的音量实时计算和样本之间的关系。（有意思的是，每个引擎、甚至同一个引擎的不同版本，在这个问题上都会差异很大！对我而言抓到其中的微妙关系是一件非常刺激的烧脑运动：－）。

简而言之：我要在样本RMS值、FMOD Event Volume和游戏内听到的音量，这三者之间获得一些明确的规律，这个规律会直接影响我下一步的平衡和优化手法。

我当时得到的结论是：

两种基本的音乐类型里，样本的基本响度差异大约10-12dB。
同一种类型的音乐里，样本平均响度差大约10dB左右。有些背景音乐里，同一条样本的基本动态差（弱音乐部分和高潮部分）也会存在至少10dB的差。
语音的峰值和RMS相对比较稳定，但每个大批次的录音很不专业：话筒位置、话放和前级、演员的发声点都存在非常大的区别。有些语音甚至因为后期的不恰当压缩处理，导致房间混响非常明显。
技能和动作音效RMS的整体差异（普通肢体动作和技能）平均大约在9dB左右，而有些技能的高频和低频明显过大了。
环境声的中频不均匀，有些低频过多（主要基于游戏体验本身做出的判断），音量和频响差异不大，但是很融合上需要更平滑的差异。

因为给我的时间很短，所以第一波动作是优先考虑如何批处理，目标是两个：

平衡样本音量、景深和频响，让他们听起来是同一批制作出来的。响度、景深都能达到统一的标准。
优化音质，尤其是语音。语音样本色彩显得过于淳朴。
衰减所有样本的16kHz以上和60Hz一下频段（不同类别的声音衰减量和频段略有差异）

而天刀里的情况比较复杂，在版本压力下，兜底查了之后理顺显然是不明智的。最现实的办法是充分理解现有机制和它表现出来的音量处理规律，从而得到一个比较快速又安全的解决方案。最终制定的基本音量配置方案如下：

在这份表格里，我列出了当前样本和FMOD的基本音量，也列出了目标音量，以此作为对比。而这份对比，无论对于早期的工作还是后续新增版本的设定，都是具有非常重要的指导意义的。

注：

这份表格里的样本音量并不是绝对值，而是通过大量随机抽取样本获得的平均值。
这些目标音量和最终游戏里调整后的版本存在一定的出入，但正常情况下，出入范围小于正负3dB。
所有这些数值，是在我第一波清理样本RMS和频响优化平衡后得到的（下面会介绍第一波样本平衡的具体手法），而不是在数据没有规律的情况下得到的。其中有些数值的变化量是非常大，例如环境声，和通常的设定存在非常大差异。主要原因在于天刀采用的FMOD版本里，3D音量衰减存在显著的问题：当Event Vol= -6dB的时候，它在游戏里实际表现出的音量衰减大约是-10dB。这个衰减率和SoundMood的设置也有相当大的关系。
最后一列的FMOD Vol.Set里，我们可以看到不同层次的声音在FMOD里几乎没有太大的差异。实际上，这现象是很不正常的。根据惯常的做法，样本音量动态差异不大，而FMOD音量设定的动态应该比较大才对。其中主要原因是：很多EVENT采用了multi-layers结构，并且大量采用的用户自定义曲线来实时运算。另一个原因也和上面提到的3D音量衰减率有关。

在这套音量参照系里，我没有采用单机里比较普遍的做法，而是偷懒了的。这套办法并不完美，但是对于天刀这个项目的情况来说，这样的做法无异更实际一些。从不同行的色彩标注里，你也可以看到音量层次设定，简单说，基本上是要样本族群本身的色彩、动态和频响在游戏里形成层次上的差异。

在进行第一波样本优化之前，我做了两件事情：

按惯常的音量配比，小规模地找一些常见的声音样本做批处理。主要是：一个地图的音乐和环境声。
替换FMOD里的这些样本，随后按预计的惯常音量修改这些音量参数，进游戏里测试其表现情况。我其实在这一步保留了一些重要声音，例如技能，原因在于，我需要保留一些显著的声音在游戏里和这些修改过的声音做对比，看那些新的设定在游戏里究竟会引起怎样的反应。这个手法其实在游戏后期优化的时候也很有效。

所有的第一阶段处理分两步来解决：整体逐类型的先批处理，随后挑出其中比较特殊的一个个单独加工。基本动作都在Soundforge里进行批处理：

背景音乐主要采用unltra-funk reverb和EQ来做润色、平衡，让出中频。因为旋律部分主要是中国乐器，而中国乐器主要集中在800-2000Hz中频范围内。这样的动作可以让音乐显得略远，尤其主奏的中国乐器。简单说，所有背景音乐柔化，声场往后靠，声场拉宽，平均RMS达到计划指标，短时（高潮段落）不超过-14dB。这就可以把很大的空间让出来给环境声了。
战斗音乐差异比较大，先挑出过大的样本，用EQ来整体衰减，让它们的响度和频响差异听起来不是那么大。然后批处理：加入一些短时混响、用EQ切除中频、衰减中低频。甚至50Hz以下也衰减一些。这就可以让他们把频响空间让出来给技能和动作。平均RMS控制在计划强度上。12kHz以上也大量衰减。（而环境声的12kHz以上则衰减得比较少，这样，环境声的细微颗粒感和空气看就得以显现出来了。）
技能统一衰减16kHz（较多）和12kHz（较少），降低刺耳感，少量衰减250和500Hz。随后根据门派技能声音设定的差异，为每个门派的EQ再动一次渲染性的处理，强化门派间的色彩差异。
环境声，根据声音本身的特点（例如所有的山谷白天为一类），分别做批处理，统一RMS和频响。随后用混响强化声场宽度和纵深，大风大雨比较靠前（不用或者少用混响渲染），其他都靠后（多一些混响和EQ渲染）。有些样本的16kHz也是衰减非常多，主要是一些知了、蟋蟀和风，甚至这些样本的4kHz也被衰减掉很多，一方面可以让这些声音和其他声音可以平滑融合、不至于显得太突兀，另一方面也是为了获得柔和的听感。
语音比较棘手，用传统的EQ、压缩啥都不能解决录音和发声点差异的。采用大染色的插件来做强渲染，让所有语音样本都带有一些同样的音质特点，如此就可以强行让音质差异变小，这个方法是不得已的，也是比较危险的。语音的12kHz高频其实切掉比较多，主要是为了让音质显得更温暖，带有模拟录音的感觉。同时也可以过滤掉中国演员发声上普遍的缺陷：呼吸声和吐字的嘶嘶声。（其实这个问题和话筒选择与摆位也有很大的关系。）

BGM（游戏内非战斗部分的音乐）批处理插件链基本设置：

这些批处理和局部处理的特点：

首先，这些插件都带有明显的染色！一方面是因为我的个人喜好，让所有声音都显得比较温暖，另一方面普遍的衰减12kHz以上，会让最终游戏不会出现高频上的明显叠加，并且会比较耐听。而模拟性质的插件可以在高频润色方面做得非常出色（温暖，但不闷闷的）。不用担心最终游戏里高频会损失，游戏的实时混响能够帮你找回这些空气感的高频的。实际上，每个项目可能都需要设定一套渲染性插件的方案，来给这个游戏确定某些统一和明确的色彩。这个色彩会成为整个游戏听觉上的基色。
几乎没有多少声音是需要真正全频段的！并且大部分声音在500-1000Hz部分都得到了不同程度的衰减，50和60Hz以下也大量衰减。原因是，大部分声音在这两个频段部分非常容易造成冲突或者叠加（技能大招、爆炸和碰撞声的焦糊频段集中在150-600之间），单个声音的空间变得越来越小。只有当你舍得让每个样本、每一种功能类型的样本都让出特定的空间，一方面可以让这个声音的特征更明确，另一方面也给其他声音让出足够大的空间。
Ultrafunk Reverb这个插件比较特别，我需要的是一个非常干净、没有明显空间感和染色的混响。最理想的选择是Sonnox Reverb。但是...买不起，所以我选择了这个早就被停产的插件。Ultrafunk插件也是我最喜欢的插件品牌之一，它的Modulator和Delay也是非常棒的，可以广泛用来对手游、尤其是日系那种干净的声音时候。混响在这里，首先不是为了获得某种空间特征，而是为了让音乐和其他声音更好地融合。这种手法在影视和音乐的终混里非常普遍。通常原声唱片里音乐的混响明显比游戏里的音乐混响要干很多，也是这个原因。
每次批处理做完，我都要快速随机浏览样本的RMS状况，并且还要用耳朵听一下。同时做一些局部的修改。原因在于：即使两个样本的RMS相同，你听到的声音内容在景声上也可能存在很大的差异，这是我们需要尽量避免的，除非某些样本明确就是为了某种景深上使用的。另外，不同批次制作的样本本身会在频响特征上存在不可预计的差异，也需要在这步骤上解决掉。

3D自然环境声的其中一类样本批处理设置：

以上步骤并不要求这个阶段就让每个声音100%达到最终效果；也不要求这一步100%解决掉所有问题。这一步骤的目标只有一个：确保90-95%的样本能够达到计划的响度和频响平衡就可以。结果是：在游戏里它们可能听起来没有特别的起伏。这也是对的！因为只有这样，你才能明确知道所谓的游戏核心体验与声音之间的感受关系。如果说这一步要做的一个面的工作，那么下一阶段的体验性调整就是点的工作了，只不过“点”很多。而我的步骤是，先解决大的点，随后逐步细化。所谓“大”的点首先是游戏体验、尤其是剧情相关、传送点这样的节点。

批处理框架步骤：

1. 在Soundforge里做好所有需要的插件链：

2. 分批处理完之后，保存这些最终使用过的插件链(后缀.bj的文件)

另外还有一些常用的批处理，例如：

*** 这些批处理预设就可以保存在天刀的工作文档内和团队其他成员协作共享，也可以作为重要数据存档，这对于后续内容的添加和处理是至关重要的。
*** 习惯在单个插件里保存项目需要的预设也是个非常好的习惯。

于此同时，所有sound event的音量差异也以0、-3dB、-6dB、-9dB等以3dB为阶梯单位调整（如上图所列）。这个动作的原因来自己心理声学。和预期的结果一样：第二天的版本里，整体音量、响度和动态变化变得就像白开水一样平淡无味，有些地方甚至像是失控了一样。原因在于，之前的Event音量配比做得很细致，已经呈现出凹凸有致的局面了，但是现在的整体平衡显得太有规律。“规律”是非常重要的，因为不同层次的音量差异如果有规律，给予游戏玩家的体验就会更加明确和统一。这一点，可以仔细观察那些美剧，即使做了10季，不同层次的音量比例、频响比例依然如一。对于一个需要迭代的网游或者手游来说，这一点和美剧是完全相同的！现在新的阶梯状音量体系，把这些不同类型声音的层次规律显现了出来，这就是我希望的。而我们第二步要做的就是逐类查找细节，确保某些声音不是太大或者太小，或者在游戏里它需要一些特殊的频段。基本手法也是：先小面积的抽取测试，同时找到两者折衷值，随后批量处理进游戏。这一步也是进一步处理整体平衡和层次。这样做的另一个好处是：让同事也可以轻易听出问题或者看到真正的渲染点。直到这一整体平衡过程结束，我才会开始挑出某些样本进行特别处理。事实上，正如前文提到的，最终绝大部分声音在FMOD里都没有机会设置到-9dB，甚至-6dB的几率都很低，原因在于这个FMOD版本和对于音量的衰减处理存在一些我们完全不知道的算法，我们能够确认的只是－6dB开始，音量衰减速度呈现濒死的体验，这是极其不正常的，但也是短时间内很难花时间去查清楚的。

在以上每一种类型的声音批处理之前，我对每种类型的声音样本作了足够大数量的随机抽取测试，以此找到插件链和渲染参数的折衷配比。并且能够确保后续的任何一批新增内容都能够适用于这些插件链。这步工作绝对是需要经验的，也是非常烧脑的工作。其中最重要的是验证复查工作：RMS响度测试、肉耳听力判断结合。这里需要强调的是：做这个工作，即使对于一个好莱坞高手来说，也是需要每天工作前做一些热身工作的。所谓热身工作就是每天一早去听一下自己最熟悉的音乐或者soundtrack，甚至要听一下前一天处理完的东西，从而确保自己的听力判断体系每天都是一样的。对于有些部分的响度和频响处理工作，我甚至会苛求自己当天必须结束，因为那些声音还会涉及到更多的色彩性问题。稳定的听力判断包括对频响、景深、立体声宽度、色彩，这些判断都不能因为自己的情绪和身体状况而受到影响。稳定的听力判断，的确是需要长期训练的。举个简单的例子，随便找一个高质量的素材库，无论它有多少样本，它们听起来响度、景深、声场宽度等等基本要素都是非常统一的，甚至色彩也是明确统一的。所以，好的监听习惯、稳定明确的口味、足够好的硬件，甚至对插件的理解和运用，都会直接影响到你的判断和结果。这也是为什么行业里都比较推崇拿着录音机出去录素材的做法，不仅仅是为了更好的创作体验等因素，样本的后期清理和优化工作更是一种非常有效的训练。

在处理语音响度和景深的时候，其实遇到过一个非常棘手的问题，也是一个非常典型的问题。我们原计划设想让不同场合出现的对白呈现出不同的景深，需要对样本进行不同的预渲染。例如主线任务B类剧情会比较偏向于融入场景，甚至需要做一些混响预渲染，它们不会出现全频段的样本。而旁白等特殊语音状态则强调贴贴脸特写式的全频段处理。点击语音则显得略微现场感一些，会偏薄，很多频段会被削弱，景深不低于2米。以此就可以呈现出电影化的层次特点，更戏剧性，线条也更清晰。然而，现有的文件命名和角色语音的归类方式，基本上无法让我们可以快速提取出那种分类方式所需要的样本。尤其是语音，因为数量又非常庞大而只能作罢，转而采取简单粗暴的统一渲染办法，最终只能照顾折衷。这个问题也广泛出现在动作和技能方面。如果有机会的看单机的数据，你会发现单机的语音样本名称其实非常长，有些项目里的样本名称甚至会留下录音批次的编号。因为单机还涉及到多语种的问题，所以会更复杂一些。因此可以看出，游戏的平衡和响度控制，往往是一个需要仔细规划的系统工程，从文件结构和文件名称、功能与实施方案等等每个环节都要综合考虑的。

简单介绍一下我在Soundforge里使用的主要插件:

Waves All(主要是REQ 4, API560 EQ, API2500 compressor, Schopes 730和NR)
Ultrafunk
Steinberg Masterting Edition

关于样本响度的主要控制环节：

音乐：原作（可用于独立发布出版的），游戏内资源
语音：录音（话筒型号与摆位、前级型号与设置、房间声学控制），后期平衡、滤噪与色彩
音效：初始素材、游戏内中间阶段素材（整体平衡前）、后期素材（整体平衡后的最终素材）
游戏内CG：原作（可用于独立发布出版的），游戏内资源
宣传片和宣传歌曲：高精度版本，网络发布版本（低精度格式与CP协调）

尾声

关于响度的问题，我多年前访问Skywalker的时候也请教过那里的制作人和设计师。除了以上提到的那些流程控制外，其实他们对于同一个IP的不同媒介版本，会有截然不同的处理和控制。比方说Star Wars的剧场版在美国主要支持THX，而家庭版则主要有THX、DTS、Dolby AC-3、Doldby Stereo。而宣传片内容，除了以上那些格式外，还有各种数字媒体版本，例如Vimeo、Youtube和 Quicktime，甚至还要考虑iPhone、iTunes之类的。对于不同的播放媒介，他们通常是要重新校准响度和动态的，甚至有时候是终混就要左不同版本，而不是混音完了之后再调整出不同版本。其目的是为了在不同媒介上都能表现出最佳的听感。这个工作目前在EA、UBI之类传统巨头体系里已经很接近影视领域的作法，很多时候宣传片、CG的制作是由专门的团队来完成。如何确保多部门的协作在响度和动态频响上保持一致，确实是一件非常复杂的事情。其中，除了人员的专业训练和工作流程、以及技术标准的普及化认识以外，工具的统一、硬件软件设施的统一也是非常重要的环节。

另外，从项目的一开始就设定一套涉及所有基本声音类型的技术文档，从样本容量、精度到播放方式、载入方式、整合方式都要包含在内。对应的，每种类型的样本频响与动态指标、录音流程、后期流程、批处理流程、命名规则等等，都要有明确的文字和数据记录保存。我们和项目组、CP之间不仅仅存在意识形态和需求上的沟通，更多的还需要足够多的技术沟通，尤其是项目前期阶段。

以上内容供探讨和参考。若有错漏，请斧正，不胜感激！

文章出处 http://www.midifan.com/

转载文章请注明出自 Midifan.com

访问以下地址浏览此文的有图版本：https://www.midifan.com/modulearticle-detailview-5572.htm

		自动登录	找回密码
密码			立即注册

首页

[理论相关] 响度与响度处理经验谈【转载】

马上注册，浏览本站更多内容。