多媒体音频的关键技术包括数字音频、音乐合成、MIDI与音效。
1、数字音频
(1)数字化音频 由物理学可知,复杂的声波由许许多多具有不同振幅和频率的正弦波组成。
在导论中已介绍过代表声音的模拟信息是个连续的量,不能由计算机直接处理,必须将其数字化。声音信息的计算机获取过程就是声音信号的数字化处理的过程。经过数字化处理之后的数字声音信息能够像文字和图形信息一样进行存储、检索、编辑和其它处理。下图为声音模拟信号数字化示意图。
用数字方式记录声音,首先需对声波采样,下图为声波数字化表示的示意图,其中横轴表示时间,纵轴表示振幅。
上图是声波的数字化示意图 如果提高采样频率,时间单位所得到的振幅值就会更多,即采样频率越高,对于原声音曲线的模拟就越精确。然后再把足够多的振幅值以同样的采样频率转换为电压值去驱动扬声器,则可听到和原波形一样的声音。这种技术叫做脉冲编码调制技术(PCM)。上述的第一个过程,为模数转换(ADC),即将普通的模拟声音信号转化成计算机能识别的数字信号,第二个过程,为数模转换(DAC),即由数字变成波形。通过这样的技术,就可以将从声卡的话筒输入端送入的模拟音频信号经ADC变成数字信号存储在计算机内,然后再经DAC转换为波形重放。在导论中已介绍了影响数字化声音质量的因素主要有三个,即采样频率,采样精度和通道个数。
(2)数字音频的压缩 采用数字音频获取声音文件的方法最突出的问题是信息量大,为:
存储容量(字节)=采样频率×采样精度/8×声道数×时间
一段持续1分钟的双声道声音,若采样频率为44.1kHz,量化精度为16位,数字化后需要的存贮容量为:
44.1×103 ×16/8×2×60=10.584MB
下表列出了1min的双声道节目采用不同采样频率和精度所需的存储容量。
可见,数字音频的编码必须具有压缩声音信息的能力,最常用的压缩方法为自适应脉冲编码调制(ADPCM)法。ADPCM压缩编码方案信噪比高,数据压缩倍率可达2~5倍而不会明显失真,因此数字化声音信息大多利用此种压缩方法。例如,Yamaha公司的ADPCM算法可以达到3∶1压缩比。
2、MIDI音效
MIDI为Musical Instrument Digital Interface的缩写,译作乐器数字化接口,是为了把电子乐器与计算机相连而制定的一个规范,是数字音乐的国际标准。
数字式电子乐器的出现,为计算机处理音乐创造了极为有利的条件。MIDI声音与数字化波形声音完全不同,它不是对声波进行采样、量化和编码,而是将电子乐器键盘的弹奏信息记录下来,包括键名、力度、时值长短等,这些信息称之为MIDI消息,是乐谱的一种数字式描述。当需要播放时,只需从相应的MIDI文件中读出MIDI消息,生成所需要的乐器声音波形,经放大后由扬声器输出。下图是多媒体计算机中MIDI声音的处理过程。
MIDI声音有许多优点。首先,它对存贮容量的需求远比波形声音小得多。使用CD-DA格式的波形存贮时,播放半个小时的立体声音乐,需要300MB存贮量,而用MIDI记录时只需200KB左右,两者相差1000多倍,就是与采用ADPCM压缩编码的波形声音信息相比,MIDI声音的数据量也要小两个数量级以上。另外,与波形声音相比,MIDI声音在编辑修改方面也是十分方便灵活的,例如可任意修改曲子的速度、音调,也可改换不同的乐器等。
(1)多媒体计算机中的MIDI与音效
多媒体PC机要求声音卡上包含MIDI合成器和MIDI输入/输出端口。MIDI合成器分为基本型和扩展型,它们能演奏的乐器数目及复音数见下表。多媒体PC机要求至少提供一个基本型的合成器。
音效是集成电路工业中数字声音信号处理技术进步的结晶,在声卡技术的推动下,有不少声卡安装了音效芯片,从而在硬件上实现了回声、混响、和声等,使声卡发出的声音更生动。
(2)音乐合成器
多媒体微机通过内部合成器或通过外接到计算机MIDI端口的外部合成器播放MIDI文件。MIDI合成器类型目前有两种:频率调制FM合成和波形表(wave
table)合成。FM方式最早应用于声卡上,它是通过硬件产生正弦信号,再经过处理产生音乐。而波形表的原理是在ROM中已存储着各种实际乐器的声音采样,合成时以查表方式调用这种实际乐器的声音采样,合成该乐器的乐音。因此,利用波形表方式合成音乐的效果更加逼真,它的效果优于FM合成。