原聲語音信號可以看成是模擬信號,其數字化就是將這些模擬信號進行模數轉換變成數字信號。最早的原聲語音信號數字化采用的是PCM(Pulse Code Modulation)技術即脈沖編碼調制技術。1967年,日本NHK技術研究所首先把將通信技術中的PCM技術引進音響領域,從此標志著數字音響時代的開始。
2.1典型的原聲信號數字化方法
原聲信號的數字化一般從信號的波形、信號的參數等方面入手,可以分為波形編碼、參數編碼和混合編碼等。
波形編碼力圖使還原出的語音波形與原語音信號波形一致,這種數字化的方法適應能力強、編碼后的語音質量好,但所需的編碼速率高。這類方法的典型代表有前述的脈沖編碼調制(PCM)、自適應差分脈沖編碼調制(Adaptive Difference Pulse CodeModulation,ADPCM)、連續可變斜率增量(ContinuouslyVariable Slope Delta,CVSD)編碼調制[2]等。其中CVSD編碼由于其抗突發錯誤能力較強,在移動通信、軍事通信和衛星通信等領域得到了廣泛地應用。
參數編碼的編碼對象是原聲信號的特征參數,通過對這些參數的提取及編碼來保持原聲語意,其特點是編碼速率較低,合成語音質量較差,如線性預測編碼(Linear Prediction Code,LPC)、多脈沖激勵線性預測編碼(Multi Pulse Excited Linear Prediction Code,MPELPC)[3]等。
混合編碼編碼對象包括了原聲信號的波形和參數,針對參數編碼語音質量低的缺點,混合編碼采用合成-分析的方法,能夠在中低速率上獲得高質量的語音編碼,節省傳輸信道容量及存儲量。其典型代表如線性預測編碼(Code Excited Linear Prediction,CELP)、短時延碼激勵線性預測編碼(Low-DelayCode Excited Linea rPrediction,LD-CELP)、矢量和激勵線性預測編碼(Vector Sum Code Excited Linear Prediction,VSCELP)等。
針對不同的編碼方式,歐洲廣播聯盟和3GPP國際組織等機構組織陸續推出了EAAC+、AMR-WB+和G.729.1等編碼標準,用以規范編碼方法,極大促進了語音信號的數字化進程。
