-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

數字語音處理理論與應用

( 簡體 字)
作者:劉加等類別:1. -> 教材 -> 數位影像處理
譯者:
出版社:電子工業出版社數字語音處理理論與應用 3dWoo書號: 46245
詢問書籍請說出此書號!

缺書
NT售價: 640

出版日:11/1/2015
頁數:664
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121275906
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

譯 者 序
語音信號處理是一門古老而新穎的學科,說它“古老”是因為它與數字信號處理同時代產生,說它“新穎”是因為它一直經歷著令人激動的變革和挑戰。Lawrence R. Rabiner教授作為這些變革的親歷者和大師級人物,有著深刻的切身體驗,他的著作,如1978年他與Ronald W. Schafer教授合著的《語音信號數字處理》和1993年他與Biing-Hwang Juang教授合著的《語音識別基本原理》,也成為了語音信號處理領域的經典和必備讀物。2010年,在清華大學電子工程系朱雪龍教授的推薦下,電子工業出版社希望我們完成Rabiner教授和Schafer教授的新作《數字語音處理理論與應用》一書的翻譯工作,我們欣然接受了翻譯任務。然而,翻譯的過程是艱辛的,為了能夠對原文有比較準確的翻譯表述,我們經歷了無數個不眠之夜,歷時五載,終于完成了初稿。在此期間,由于機器學習(尤其是深度學習)、聽覺感知、聽覺場景分析等理論和技術的發展,語音信號和信息處理技術經過一段平緩發展期后,又開始生機盎然,語音識別、說話人識別、語種識別、語音增強、語音和音頻編解碼、自然語言處理等技術都有新的創新,其系統性能也有顯著提升。語音相關的產品也如雨后春筍般地涌現。在此時機下,我們期待此書的翻譯出版能對國內語音界的科研人員,以及本科生和研究生的專業教學有所幫助。
本書原著結合自己的科研實踐對數字語音信號處理的基本原理和應用進行了深入分析,既有理論深度,又通俗易讀。內容分為四個層次逐級展開:第一個層次介紹語音信號處理基礎知識,主要包括數字信號處理基礎、語音產生機理、人的聽覺和聽感知與聲道中的聲傳播;第二個層次介紹語音信號的時頻表示,主要包括時域表示、頻域表示、倒譜及同態處理和線性預測分析;第三個層次介紹語音參數估計算法,主要包括靜音檢測、清濁判斷、基音和共振峰估計等;第四個層次介紹語音信號處理的應用,主要包括語音編碼、語音和音頻頻域編碼、語音合成、語音識別和自然語言理解。除了深入淺出的講解外,書中還附有大量生動的插圖,各章之后還附有精心設計的習題和MATLAB練習,以便讀者對基礎知識和基本方法深入理解和靈活應用。
本書能夠得以完成,要特別感謝清華大學的朱雪龍教授,他不但為我們和出版社牽線搭橋,而且一直關心著我們的翻譯工作;另外他于1983年牽頭翻譯的《語音信號數字處理》也為本書提供了諸多寶貴的參考和基礎。感謝電子工業出版社的相關編輯,他們為本書的引進做出了貢獻,同時對我們的翻譯工作給予了大力支持。
在本書的翻譯工作中,清華大學電子工程系語音與音頻技術實驗室的博士研究生和博士后也參與了部分內容的翻譯工作,他們是(按姓氏拼音排序):蔡猛、錢彥旻、單煜翔、史永哲、楊毅等,在此一并表示感謝。
本書雖然經過兩次翻譯校對,但是難免仍然會存在錯誤和不妥之處,歡迎讀者批評指正。


劉加 張衛強 何亮 路程
2015年11月于清華園

前 言

70多年來,語音信號處理一直是一個活躍且不斷發展的領域。最早的語音處理系統是模擬系統,如20世紀30年代由Homer Dudley及其同事們在貝爾實驗室開發并于1939年在紐約世博會上展出的Voder系統,該系統可通過手工操作合成出語音;同期,Homer Dudley在貝爾實驗室還開發出了通道聲碼器或聲音編碼器;20世紀40年代,Koenig及其同事們在貝爾實驗室開發出了聲音語譜圖系統,該系統可以在時域和頻域展示語音的時變特征;另外,20世紀50年代,全世界的很多研究實驗室都開發出了早期的語音單詞識別系統。
數字信號處理(DSP)起源于20世紀60年代,在DSP應用的廣泛領域中,語音處理是其早期發展的驅動力。在此期間,先驅研究者們如麻省理工學院林肯實驗室的Ben Gold和Charlie Rader,貝爾實驗室的Jim Flanagan、Roger Golden和Jim Kaiser,他們開始研究數字濾波器的設計和應用方法,并用于語音處理系統的模擬仿真。隨著1965年Jim Cooley和John Tukey發明快速傅里葉變換(FFT)技術以及FFT在快速卷積和譜分析方面的廣泛應用,模擬技術的束縛和局限逐漸被打破,數字語音處理隨之產生并展現出了清晰的面貌。
1968年至1974年期間,本書作者(Lawrence R. Rabiner和Ronald W. Schafer)在貝爾實驗室一起密切地工作,期間DSP領域取得了很多的基礎性進展。當Ronald W. Schafer于1975年離開貝爾實驗室并在佐治亞理工學院任學術職位時,數字語音處理領域已蓬勃發展,于是我們覺得是時候寫一本關于語音信號數字處理方法和系統的教材了。到1976年,我們相信數字語音處理的理論發展得已經足夠完備,精心撰寫一本教材不但可以作為講授數字語音處理基礎知識的教材,還可以作為未來語音處理實際應用系統設計的參考書。1978年,Prentice-Hall公司出版了這本教材《數字語音信號處理》。采用這本教材,Ronald W. Schafer開設了第一門數字語音處理的研究生課程,期間Lawrence R. Rabiner仍在貝爾實驗室從事數字語音處理基礎的研究工作(Lawrence R. Rabiner在貝爾實驗室和AT&T實驗室工作了40年,2002年也進入學術界,在羅格斯大學和加州大學圣?巴巴拉分校任教。Ronald W. Schafer在佐治亞理工學院工作30年后,于2004年加入了惠普實驗室)。
1978年出版的教材的目標是,介紹語音基礎知識和數字語音處理方法,以便構建強大的語音信號處理系統。從宏觀層面來說,我們達到了最初的目標。本書按我們的預想服務了30多年,令我們高興的是,直到今天它仍然廣泛應用于本科生和研究生的語音信號處理課程教學。然而,根據我們過去20年來教授語音處理課程的經驗,原書的基礎尚可,但很多內容已與當代語音信號處理系統脫節,且未涉及當前的很多研究熱點。這本新書正是我們改進這些問題的嘗試。
在著手統一數字語音處理的現有理論和實踐的艱巨任務時,我們發現原書中的很多內容還是正確且相關的,因此新書的起點很好。此外,我們從語音處理的科研和教學經驗中了解到,1978年出版的教材中,雖然內容組織基本上沒有問題,但它已經不適合用來理解當代的語音處理系統。針對這些問題,我們在組織新書的內容時采用了新的框架,它與原書相比有兩大改變。首先,我們包含了已有的數字語音處理知識體系結構。這種體系的第一層是語音基礎科學和工程方面的基礎知識;第二層是語音信號的各種表示。原書主要側重了這兩層,但一些關鍵主題則有所缺失。第三層是操作、處理和抽取語音信號中信息的各種算法,這些算法基于前兩層的科學和技術知識。頂層(即第四層)是語音處理算法的各種應用,以及處理語音通信系統中問題的技術。
我們努力按照這種體系結構(即語音金字塔)來展現新書的內容。為達到這一目的,第2章至第5章主要介紹金字塔的底層,內容包括語音產生和感知基礎知識、DSP基礎知識回顧,以及聲學、語音學、語言學、語音感知、聲道中的聲音傳播等。第6章至第9章介紹如何通過基本的信號處理原理來表示數字語音信號(語音金字塔的第二層)。第10章介紹如何設計可靠和穩健的語音算法來估計感興趣的語音參數(語音金字塔的第三層)。最后,第11章至第14章介紹如何利用語音金字塔前幾層的知識來設計和實現各種語音應用(語音金字塔的第四層)。
新書在結構和行文上的一個重要變化是,為了盡可能地方便教學,我們在呈現內容時側重于學習新思想的三個方面,即理論、概念和實現。對每個基本概念,我們都用很容易理解的DSP概念進行理論闡釋;類似地,為了加深理解,每個新概念都提供了簡單的數學解釋和精心準備的例子與插圖;最后,基于教學中對基礎知識的理解,針對每個新概念的實現,提供了可實現特定語音處理操作的MATLAB代碼(通常包含在每章中),每章的習題中配備了文檔詳盡的MATLAB練習。我們還在教學網站上提供了求解所有MATLAB練習所需要的內容,如MATLAB代碼、數據庫、語音文件等。最后,我們提供了幾種語音處理系統結果的音頻演示。通過這種方式,讀者可以直觀地了解各種語音信號處理后的語音質量。
更具體地講,這本新書的組織如下。第1章簡要介紹語音處理的領域,簡要討論貫穿于全書的主題的應用領域。第2章簡要回顧DSP的概念,重點在于與語音處理系統密切相關的幾個關鍵概念:
1. 從時域到頻域的轉換(通過離散時間傅里葉變換方法)。
2. 了解頻域采樣的影響(即時域混疊)。
3. 了解時域采樣(包括下采樣和上采樣)的影響,以及頻域的混疊和鏡像。
在回顧DSP技術的基礎知識后,第3章和第4章討論語音的產生和感知。這兩章與第2章和第5章一起,構成了語音金字塔的底層。從這里,我們開始討論語音產生的聲學理論,對不同的語音發音,我們導出了一系列聲學語音模型,并展示了語言學和語音學如何與語音發聲聲學一起相互作用,生成語音信號及其在語言上的解釋。討論從語音在人耳中如何處理開始,到聲音轉換為通往大腦的聽感知神經通路中的神經信號結束,我們通過分析語音感知過程,討論了語音通信的基本過程,還簡要討論了幾種在一些語音處理應用中可能嵌入語音感知知識到聽感知模型的方法。第5章介紹關于人類聲音在聲道中傳播問題的基礎知識,表明與聲道相似的均勻無損聲管具有共振結構,以此闡明語音中的共振(共振峰)頻率。還展示了如何通過適當的“終端模擬”數字系統來表示一系列級聯聲管的傳播特性。該“終端模擬”數字系統具有特定的激勵函數、對應不同長度和面積聲管的特定系統響應,以及對應聲音在唇端傳輸的特定輻射特征。
接下來的四章介紹主要4種數字語音信號的表示(語音金字塔的第二層)。第6章從語音產生的時域模型開始,逐步展示了如何通過簡單的時域測量方法來估計模型中的基本時變屬性。第7章介紹對語音信號應用短時傅里葉分析,以便實現無失真的分析/合成系統。取決于待處理信息的性質,我們解釋了兩種短時傅里葉分析/合成系統,兩者都有著廣泛的應用。第8章描述語音的同態(倒譜)表示,其中用到了卷積信號(如語音)可以轉換為一系列加性分量這一性質。由于語音信號可以表示為激勵信號和聲道系統的卷積,因此語音信號非常適合于這種分析。第9章介紹線性預測分析的理論和實踐,線性預測是語音信號的一種模型表示,當前的語音樣本可以通過先前p個語音樣本的線性組合建模表示,通過尋找最優線性預測器(最小均方誤差)的系數,實現在給定時間段內最優的匹配語音信號。
第10章(語音金字塔的第三層)使用前面章節中介紹的信號處理表示和語音信號基礎知識,介紹了如何使用短時(對數)能量、短時過零率、短時自相關函數等測量值來估計基本的語音屬性,例如分析的信號段是語音還是靜音(背景信號)、語音段是濁音還是清音、濁音語音段的基音周期(基音頻率)、語音段的共振峰(聲道共振)等。對于許多語音屬性,4種語音表示中的每一種,都可以作為估計語音屬性的高效算法使用。同時還介紹了如何基于4種語音表示中的兩種測量法來估計共振峰。
第11章至第14章(語音金字塔的頂層)介紹語音和音頻信號處理技術的幾種主要應用。這些應用是深入理解語音和音頻技術的成果。討論語音應用的目的是,讓讀者基本了解如何構建這些應用,了解它們在不同比特率和不同應用場景下的性能。具體來講,第11章介紹語音編碼系統(包括開環和閉環系統);第12章介紹如何使用感知掩蔽準則來構建具有最小編碼感知誤差的音頻編碼系統;第13章介紹如何構建口語對話系統中使用的文語轉換合成系統;第14章介紹語音識別和自然語言處理系統,以及它們在一系列面向任務的場景中的應用。
本書可作為已先修DSP課程的學生的一個學期的語音處理教材。在我們自己的教學實踐中,重點講解第3章至第11章,同時選講其他章節的部分內容,以便使學生對音頻編碼、語音合成和語音識別系統也有一定的認識。為了幫助教學,每章都提供了一些有代表性的課后習題,以強化每章討論的概念。成功完成合理數量的課后習題,對理解語音處理的數學和理論概念非常重要。但如讀者了解的那樣,很多語音處理都是經驗性的,因此我們提供了許多MATLAB練習來強化學生對語音處理基本概念的理解。我們還提供了配套的教學網站(http://www.pearsonhighered.com/Rabiner),并隨時更新網站的內容,包括所需的語音文件、數據庫和求解MATLAB練習的MATLAB代碼,以及一系列語音處理概念的演示。
致謝
在語音處理的職業生涯中,我們非常幸運在擁有過在杰出研究和學術機構的工作經歷,這些單位為我們提供了充滿激情的研究環境,并且鼓勵我們分享知識。對于Lawrence R. Rabiner而言,這些單位包括貝爾實驗室、AT&T實驗室、羅格斯大學和加州大學圣塔芭芭分校;對于Ronald W. Schafer而言,這些單位包括貝爾實驗室、佐治亞理工大學ECE和惠普實驗室。沒有這些單位的同事和領導的支持與鼓勵,這本書不會存在。
很多人對本書的內容有直接或間接的重大影響,但我們最應感謝的是James L. Flanagan博士,他是我們兩人職業生涯中很多關鍵時期的導師和益友。Jim為我們如何從事科研、如何清晰合理地呈現研究結果提供了指導。無論是對這本書還是對我們各自的職業,他的影響都是非常深遠的。
感謝有幸合作并互相學習的其他人,包括我們的導師麻省理工學院的Alan Oppenheim教授和Kenneth Stevens教授,以及我們的同事佐治亞理工大學的Tom Barnwell教授、Mark Clements教授、Chin Lee教授、Fred Juang教授、Jim McClellan教授和Russ Mersereau教授。這些人既是我們的同事,又是我們的老師,我們感激他們的睿智和多年來的指導。
直接參與本書準備工作的同事包括Bishnu Atal博士、Victor Zue教授、Jim Glass教授和Peter Noll教授,他們都提供了見解深刻的成果,這些成果對本書中的很多內容產生了很大的影響。感謝其他人允許我們使用其發表物中的圖表,包括Alex Acero、Joe Campbell、Raymond Chen、Eric Cosatto、Rich Cox、Ron Crochiere、Thierry Dutoit、Oded Ghitza、Al Gorin、Hynek Hermansky、Nelson Kiang、Rich Lippman、Dick Lyon、Marion Macchi、John Makhoul、Mehryar Mohri、Joern Ostermann、David Pallett、Roberto Pieraccini、Tom Quatieri、Juergen Schroeter、Stephanie Seneff、Malcolm Slaney、Peter Vary和Vishu Viswanathan。
感謝朗訊-阿爾卡特公司、IEEE、美國聲學學會和House-Ear Institute允許我們使用已發表或備檔的圖表。
同時要感謝Prentice Hall公司的那些幫助出版本書的人員,包括策劃編輯Andrew Gilfillan、責任編輯Clare Romeo和助理編輯William Opaluch。還要感謝TexTech International公司負責文字編校工作的Maheswari PonSaravanan。
最后,感謝贊助商Suzanne Dorothy對我們給予的關愛、耐心和支持。


Lawrence R. Rabiner和Ronald W. Schafer
內容簡介:

本書是作者繼1978年出版的經典教材《語音信號的數字處理》之后的又一著作,全書除有簡練精辟的基礎知識介紹外,系統講解了近30年來語音信號處理的新理論、新方法和在應用上的新進展。全書共14章,分四部分:第一部分介紹語音信號處理基礎知識,主要包括數字信號處理基礎、語音產生機理、(人的)聽覺和聽感知機理,以及聲道中的聲傳播原理;第二部分介紹語音信號的時、頻域表示和分析;第三部分介紹語音參數估計方法;第四部分介紹語音信號處理的應用,主要包括語音編碼、語音和音頻信號的頻域編輯、語音合成、語音識別及自然語言理解。

目錄:

第1章 數字語音處理介紹 1
1.1 語音信號 2
1.2 語音堆 5
1.3 數字語音處理的應用 6
1.3.1 語音編碼 6
1.3.2 文語轉換合成 7
1.3.3 語音識別和其他模式匹配問題 7
1.3.4 其他語音應用 8
1.4 參考文獻評論 9
1.5 小結 10
第2章 數字信號處理基礎回顧 11
2.1 引言 11
2.2 離散時間信號與系統 11
2.3 信號與系統的變換表示 13
2.3.1 連續時間傅里葉變換 14
2.3.2 z變換 14
2.3.3 離散時間傅里葉變換 16
2.3.4 離散傅里葉變換 17
2.3.5 DTFT的采樣 18
2.3.6 DFT的性質 19
2.4 數字濾波器基礎 20
2.4.1 FIR系統 20
2.4.2 FIR濾波器設計方法 21
2.4.3 FIR濾波器實現 23
2.4.4 IIR系統 23
2.4.5 IIR濾波器設計方法 23
2.4.6 IIR系統的實現 24
2.4.7 關于FIR和IIR濾波器設計
方法的說明 27
2.5 采樣 27
2.5.1 采樣原理 27
2.5.2 語音和音頻波形的采樣率 28
2.5.3 改變采樣信號的采樣率 29
2.5.4 抽取 29
2.5.5 插值 32
2.5.6 非整數采樣率變化 33
2.5.7 FIR濾波器的優點 34
2.6 小結 34
習題 34
第3章 人類語音產生基礎 42
3.1 引言 42
3.2 語音產生過程 42
3.2.1 語音產生機理 42
3.2.2 語音特征與語音波形 46
3.2.3 語音生成的聲學理論 49
3.3 語音的短時傅里葉表示 50
3.4 聲音語音學 53
3.4.1 元音 55
3.4.2 雙元音 60
3.4.3 聲音的辨音特質 60
3.4.4 半元音 61
3.4.5 鼻音 62
3.4.6 清擦聲 64
3.4.7 濁擦音 65
3.4.8 濁塞音 67
3.4.9 清塞音 67
3.4.10 破擦聲和耳語音 69
3.5 美式英語音素的辨音特質 70
3.6 小結 70
習題 71
第4章 聽覺、聽感知模型和語音感知 80
4.1 引言 80
4.2 語言鏈 80
4.3 解剖學和耳的功能 82
4.3.1 基底膜機理 84
4.3.2 臨界頻帶 85
4.4 聲音的感知 85
4.4.1 聲音的強度 87
4.4.2 人的聽覺范圍 87
4.4.3 響度級 90
4.4.4 響度 91
4.4.5 音高 91
4.4.6 掩蔽效應——音調 92
4.4.7 掩蔽效應——噪聲 93
4.4.8 時域掩蔽效應 94
4.4.9 語音編碼中的掩蔽效應 95
4.4.10 參數鑒別——JND 95
4.5 聽感知模型 96
4.5.1 感知線性預測 96
4.5.2 Seneff聽感知模型 97
4.5.3 Lyon聽感知模型 99
4.5.4 整體區間直方圖方法 100
4.5.5 聽感知模型小結 101
4.6 人類語音感知實驗 101
4.6.1 噪聲中的聲音感知 102
4.6.2 噪聲中的語音感知 103
4.7 語音質量和可懂度測量 104
4.7.1 主觀測試 105
4.7.2 語音質量的客觀測量 106
4.8 小結 107
習題 107
第5章 聲道中的聲音傳輸 109
5.1 語音產生的聲學原理 109
5.1.1 聲音傳播 109
5.1.2 例子:均勻無損聲管 110
5.1.3 聲道中損耗的影響 114
5.1.4 嘴唇的輻射影響 117
5.1.5 元音的聲道傳輸函數 120
5.1.6 鼻腔耦合的影響 123
5.1.7 聲道中聲音的激勵 123
5.1.8 基于聲學理論的模型 127
5.2 無損聲管模型 128
5.2.1 級聯無損聲管中的波形傳播 128
5.2.2 邊界條件 130
5.2.3 與數字濾波器的關系 134
5.2.4 無損聲管模型的傳輸函數 137
5.3 采樣語音信號的數字模型 141
5.3.1 聲道建模 141
5.3.2 輻射模型 143
5.3.3 激勵模型 144
5.3.4 完整模型 144
5.4 小結 146
習題 146
第6章 語音信號處理的時域方法 153
6.1 引言 153
6.2 語音的短時分析 154
6.2.1 短時分析的通用框架 156
6.2.2 短時分析中的濾波和采樣 156
6.3 短時能量和短時幅度 159
6.3.1 基于短時能量的自動增益
控制 160
6.3.2 短時幅度 162
6.4 短時過零率 163
6.5 短時自相關函數 169
6.6 修正短時自相關函數 173
6.7 短時平均幅度差分函數 176
6.8 小結 177
習題 177
第7章 頻域表示 183
7.1 引言 183
7.2 離散時間傅里葉分析 184
7.3 短時傅里葉分析 186
7.3.1 DTFT解釋 187
7.3.2 DFT實現 188
7.3.3 加窗對分辨率的影響 188
7.3.4 關于短時自相關函數 193
7.3.5 線性濾波解釋 193
7.3.6 時域和頻域中 的
采樣率 197
7.4 頻譜顯示 199
7.5 合成的重疊相加法 206
7.5.1 精確重建的條件 206
7.5.2 合成窗的應用 211
7.6 合成的濾波器組求和方法 212
7.7 時間抽取濾波器組 217
7.7.1 通用FBS抽取系統 218
7.7.2 最大抽取濾波器組 221
7.8 雙通道濾波器組 222
7.8.1 正交鏡像濾波器組 223
7.8.2 QMF濾波器組的多相結構 225
7.8.3 共軛正交濾波器 225
7.8.4 樹形結構濾波器組 226
7.9 使用FFT實現FBS方法 228
7.9.1 FFT分析技術 228
7.9.2 FFT合成技術 230
7.10 OLA再論 232
7.11 修正的STFT 233
7.11.1 乘性修正 233
7.11.2 加性修正 236
7.11.3 時間標度修正:相位聲碼器 237
7.12 小結 242
習題 242
第8章 倒譜和同態語音處理 255
8.1 簡介 255
8.2 卷積同態系統 256
8.2.1 DTFT表示 257
8.2.2 z變換表示 260
8.2.3 復倒譜的性質 260
8.2.4 復倒譜分析實例 262
8.2.5 最小和最大相位信號 264
8.3 語音模型的同態分析 265
8.3.1 濁音模型的同態分析 266
8.3.2 清音模型的同態分析 271
8.4 計算語音的短時倒譜和復倒譜 273
8.4.1 基于離散傅里葉變換的計算 273
8.4.2 基于z變換的計算 276
8.4.3 最小相位和最大相位信號的
遞歸計算 278
8.5 自然語音的同態濾波 279
8.5.1 語音短時倒譜分析模型 280
8.5.2 使用多項式根的短時
分析實例 281
8.5.3 應用DFT的濁音分析 282
8.5.4 最小相位分析 286
8.5.5 應用DFT的清音分析 287
8.5.6 短時倒譜分析小結 289
8.6 全極點模型的倒譜分析 290
8.7 倒譜距離度量 291
8.7.1 線性濾波補償 292
8.7.2 加權倒譜距離度量 292
8.7.3 群時延頻譜 293
8.7.4 mel頻率倒譜系數 294
8.7.5 動態倒譜特征 296
8.8 小結 296
習題 296
第9章 語音信號的線性預測分析 301
9.1 引言 301
9.2 線性預測分析的基本原理 302
9.2.1 線性預測分析方程的基本
公式 304
9.2.2 自相關法 305
9.2.3 協方差法 307
9.2.4 小結 308
9.3 模型增益的計算 309
9.4 線性預測分析的頻域解釋 311
9.4.1 線性預測短時頻譜分析 311
9.4.2 均方預測誤差的頻域解釋 313
9.4.3 模型階數p的作用 316
9.4.4 線性預測語譜圖 318
9.4.5 與其他譜分析方法的對比 320
9.4.6 選擇性線性預測 321
9.5 LPC方程組的解 322
9.5.1 Cholesky分解 322
9.5.2 Levinson-Durbin算法 325
9.5.3 格型公式及其解 328
9.5.4 計算需求比較 334
9.6 預測誤差信號 335
9.6.1 歸一化均方誤差的其他
表示法 338
9.6.2 LPC參數值的實驗評估 339
9.6.3 歸一化誤差隨幀位置的變化 342
9.7 LPC多項式A(z)的一些性質 344
9.7.1 預測誤差濾波器的最小
相位性質 344
9.7.2 PARCOR系數和LPC多項式的
穩定性 344
9.7.3 最佳LP模型根的位置 345
9.8 線性預測分析與無損聲管模型的
關系 348
9.9 LP參數的替代表示 351
9.9.1 預測誤差多項式的根 351
9.9.2 全極點系統 的沖激響應 352
9.9.3 沖激響應的自相關 352
9.9.4 倒譜 352
9.9.5 預測器多項式的自相關系數 353
9.9.6 PARCOR系數 353
9.9.7 對數面積比系數 353
9.9.8 線性譜對參數 355
9.10 小結 357
習題 357
第10章 語音參數的估計算法 368
10.1 引言 368
10.2 中值平滑和語音處理 369
10.3 語音背景/靜音的鑒別 373
10.4 濁音/清音/靜音檢測的一種貝葉斯
方法 378
10.5 基音周期估計(基音檢測) 383
10.5.1 理想的基音周期估計 383
10.5.2 使用一種并行處理方法的
基音周期估計 386
10.5.3 自相關、周期性和中心削波 390
10.5.4 一種基于自相關的基音
估計器 395
10.5.5 頻域中的基音檢測 397
10.5.6 用于基音檢測的同態系統 399
10.5.7 使用線性預測參數的基音
檢測 403
10.6 共振峰估計 405
10.6.1 共振峰估計的同態系統 405
10.6.2 使用線性預測參數的共振峰
分析 410
10.9 小結 412
習題 412
第11章 語音信號數字編碼 424
11.1 引言 424
11.2 語音信號采樣 426
11.3 語音統計模型 427
11.3.1 自相關函數和功率譜 427
11.4 瞬時量化 433
11.4.1 均勻量化噪聲分析 435
11.4.2 瞬時壓擴(壓縮/擴展) 442
11.4.3 最優SNR量化 448
11.5 自適應量化 453
11.5.1 前饋自適應 454
11.5.2 反饋自適應 458
11.5.3 自適應量化的總體評價 461
11.6 語音模型參數的量化 461
11.6.1 語音模型的標量量化 462
11.6.2 向量量化 463
11.6.3 VQ實現的要素 466
11.7 差分量化的一般理論 470
11.8 ?調制 476
11.8.1 線性?調制 476
11.8.2 自適應?調制 479
11.8.3 ?調制中的高階預測器 481
11.8.4 LDM到PCM的轉換 482
11.8.5 Δ-Σ模數轉換 485
11.9 差分脈沖編碼調制 486
11.9.1 自適應量化DPCM 487
11.9.2 自適應預測DPCM 488
11.9.3 ADPCM系統的對比 491
11.10 ADPCM編碼器的改善 492
11.10.1 ADPCM編碼的基音預測 493
11.10.2 DPCM系統中的噪聲整形 495
11.10.3 完全量化的自適應預測
編碼器 498
11.11 綜合分析語音編碼 502
11.11.1 A-b-S語音編碼系統的
基本原理 504
11.11.2 多脈沖LPC 507
11.11.3 碼激勵線性預測(CELP) 509
11.11.4 比特率為4800bps的CELP
編碼器 514
11.11.5 低延時CELP(LD-CELP)
編碼 516
11.11.6 A-b-S語音編碼小結 517
11.12 開環語音編碼器 517
11.12.1 二態激勵模型 518
11.12.2 LPC聲碼器 519
11.12.3 殘差激勵LPC 521
11.12.4 混合激勵系統 522
11.13 語音編碼器的應用 522
11.13.1 語音編碼器的標準化 523
11.13.2 語音編碼器的質量評價 524
11.14 小結 526
習題 526
第12章 語音和音頻的頻域編碼 541
12.1 引言 541
12.2 歷史回顧 542
12.2.1 通道聲碼器 542
12.2.2 相位聲碼器 545
12.2.3 早期的STFT數字編碼
工作 546
12.3 子帶編碼 546
12.3.1 理想的2子帶編碼器 547
12.3.2 子帶編碼的量化器 552
12.3.3 子帶語音編碼器示例 552
12.4 自適應變換編碼 554
12.5 音頻編碼的感知模型 556
12.5.1 短時分析和合成 556
12.5.2 臨界帶理論回顧 557
12.5.3 聽閾 558
12.5.4 STFT的聲壓校正 559
12.5.5 掩蔽效應回顧 560
12.5.6 掩蔽音的識別 562
12.5.7 STFT的量化 564
12.6 MPEG-1音頻編碼標準 566
12.6.1 MPEG-1濾波器組 566
12.6.2 通道信號的量化 571
12.6.3 MPEG-1層II和層III 573
12.7 其他語音編碼標準 574
12.8 小結 574
習題 574
第13章 文語轉換合成方法 582
13.1 簡介 582
13.2 文本分析 582
13.2.1 文檔結構檢測 583
13.2.2 文本正則化 583
13.2.3 語義分析 584
13.2.4 語音學分析 584
13.2.5 多音詞消歧 585
13.2.6 字母-聲音轉換 585
13.2.7 韻律分析 586
13.2.8 韻律指定 586
13.3 語音合成方法的發展 587
13.4 早期的語音合成方法 588
13.4.1 聲碼器 588
13.4.2 終端模擬語音合成 590
13.4.3 發音器官語音合成方法 591
13.4.4 單詞拼接合成 593
13.5 單元選擇方法 595
13.5.1 拼接單元的選擇 595
13.5.2 自然語音中的單元選擇 597
13.5.3 從文本中進行在線單元選擇 597
13.5.4 單元選擇問題 597
13.5.5 轉移代價和單元代價 599
13.5.6 單元邊界平滑和修改 600
13.5.7 單元選擇方法的實驗結果 605
13.6 TTS的未來需求 605
13.7 可視化TTS 605
13.7.1 VTTS處理 606
13.8 小結 608
習題 608
第14章 自動語音識別和自然語言理解 610
14.1 引言 610
14.2 自動語音識別簡述 611
14.3 語音識別的整體過程 611
14.4 構建一個語音識別系統 612
14.4.1 識別任務 613
14.4.2 識別特征集 613
14.4.3 識別訓練 614
14.4.4 測試與性能評估 614
14.5 ASR中的決策過程 614
14.5.1 ASR問題的貝葉斯原理 615
14.5.2 Viterbi算法 618
14.5.3 步驟1:聲學建模 619
14.5.4 步驟2:語言模型 620
14.6 步驟3:搜索問題 623
14.7 簡單的ASR系統:孤立的數字識別 624
14.8 語音識別器的性能評估 625
14.9 口語理解 628
14.10 對話管理和口語生成 629
14.11 用戶界面 631
14.12 多模態用戶界面 631
14.13 小結 632
習題 632
附錄A 語音和音頻處理演示 637
附錄B 頻域微分方程求解 644
術語表 646
序: