|
-- 會員 / 註冊 --
|
|
|
|
解析深度學習:語音識別實踐 ( 簡體 字) |
作者:俞棟,鄧力 | 類別:1. -> 教材 -> 數位影像處理 2. -> 程式設計 -> 深度學習 |
譯者: |
出版社:電子工業出版社 | 3dWoo書號: 44321 詢問書籍請說出此書號!【有庫存】 NT售價: 545 元 |
出版日:10/1/2020 |
頁數:336 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787121287961 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:譯者序 技術科學的進步歷程往往是理論通過實踐開辟道路的過程。盡管眾多研究者將Geoffrey Hinton 在 2006 年發表關于深度置信網絡( Deep Belief Networks)的論文,視為深度學習出現的重要標志,但那時,該技術還只是多層神經網絡權值初始化的一種有效理論嘗試,僅僅對一小部分機器學習專家產生著影響。真正讓深度學習成為 2013年《麻省理工學院技術評論》的十大突破性技術之首的,則是深度學習在應用領域的巨大實踐成功。而語音識別正是深度學習取得顯著成功的應用領域之一。語音識別的發展自 20 世紀 70 年代采用隱馬爾可夫模型( HMM)進行聲學建模以來,每個時代都有經典的創新成果。如 20 世紀 80 年代的 N 元組語言模型, 20 世紀 90 年代的 HMM 狀態綁定和自適應技術, 21 世紀第一個十年的 GMM-HMM 模型的序列鑒別性訓練等。盡管這些技術都顯著降低了語音識別的錯誤率,但它們都無法把語音識別推動到商業可用的級別。深度學習技術在 21 世紀的第二個十年產生的最重大的影響,就是使得語音識別錯誤率在以往最好系統的基礎上相對下降 30% 或更多,而這一下降恰恰突破了語音識別真正可用的臨界點。該技術的突破伴隨著并行計算基礎設施的發展,移動互聯網大數據的產生,其影響進一步交疊擴大,目前已經成為業界毫無爭議的標準前沿技術。 本書作者俞棟博士和鄧力博士正是這一突破的最早也是最主要的推動者和實踐者。他們與 Geoffrey Hinton 合作,最早將深度學習引入語音識別并取得初步成功,后續又連續突破一系列技術瓶頸,在大尺度連續語音識別系統上取得了研究界和工業界廣泛認可的突破。在幾乎所有的語音識別應用深度學習的核心領域上都有這兩位學者的影響。我與這兩位學者相交多年,深刻地感覺到,他們在深度學習應用上的突破并非在恰當的時間接觸到恰當的算法那樣簡單,而是來源于對語音識別技術發展歷程的不懈摸索。事實上,如作者們在本書中提到的,神經網絡、層次化模型等思路在語音識別發展的歷史上早已被提出并無數次驗證,但都沒有成功。回到深度學習成功前的十年,那時能夠持續不斷地在“非主流”的方向上嘗試、改進、探索,是一件非常不易的事情。因此,我對二位學者一直懷有敬意。此次受他們之托,將展現深度學習在語音識別中的實踐歷程的英文著作翻譯成中文,也感到十分榮幸。 目前已有的語音識別書籍均以介紹經典技術為主,本書是首次以深度學習為主線,介紹語音識別應用的書籍,對讀者了解前沿的語音識別技術以及語音識別的發展歷程具有重要的參考價值。全書概要地介紹了語音識別的基本理論,主體部分則全面而詳細地講解了深度學習的各類應用技術細節,既包括理論細節,也包括工程實現細節,給出了深度學習在語音識別領域進行應用研究的全景。本書適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀。由于篇幅限制,一些算法的介紹沒有進行大幅展開,但所有的算法及技術細節都提供了詳盡的參考文獻,讀者可以按圖索驥。 本書的翻譯是與錢彥旻博士共同完成的,同時,也得到了上海交通大學智能語音實驗室的賀天行、畢夢霄、陳博、陳哲懷、鄧威、劉媛、譚天、童思博、項煦、游永彬、鄭達、朱蘇、莊毅萌的幫助,以及電子工業出版社的大力支持,在此一并表示感謝。翻譯過程難免存在疏漏和錯誤,歡迎讀者批評、指正。 俞凱 序 本書首次專門講述了如何將深度學習方法,特別是深度神經網絡( DNN)技術應用于語音識別( ASR)領域。在過去的幾年中,深度神經網絡技術在語音識別領域的應用取得了前所未有的成功。這使得本書成為在深度神經網絡技術的發展歷程中一個重要的里程碑。作者繼其前一本書 Deep Learning: Methods and Applications 之后,在語音識別技術和應用上進行了更深入鉆研,得成此作。與上一本書不同,該作并沒有對深度學習的各個應用領域都進行探討,而是將重點放在了語音識別技術及其應用 上,并就此進行了更深入、更專一的討論。難能可貴的是,這本書提供了許多語音識別技術背景知識,以及深度神經網絡的技術細節,比如嚴謹的數學描述和軟件實現也都包含其中。這些對語音識別領域的專家和有一定基礎的讀者來說都將是極其珍貴的資料。 本書的獨特之處還在于,它并沒有局限于目前常應用于語音識別技術的深度神經網絡上,還兼顧包含了深度學習中的生成模型,這種模型可以很自然地嵌入先驗的領域知識和問題約束。作者在背景材料中充分證實了自 20 世紀 90 年代早期起,語音識別領域研究者提出的深度動態生成模型( dynamic generative models)的豐富性,同時又將其與最近快速發展的深度鑒別性模型在統一的框架下進行了比較。書中以循環神經網絡和隱動態模型為例,對這兩種截然不同的深度模型進行了全方位的有見地的優 劣比較。這為語音識別中的深度學習發展和其他信號及信息處理領域開啟了一個新的激動人心的方向。該書還滿懷歷史情懷地對四代語音識別技術進行了分析。當然,以深度學習為主要內容的第四代技術是本書所詳細闡述的,特別是 DNN 和深度生成模型的無縫結合,將使得知識擴展可以在一種最自然的方式下完成。 總的來說,該書可能成為語音識別領域工作者在第四代語音識別技術時代的重要參考書。全書不但巧妙地涵蓋了一些基本概念,使你能夠理解語音識別全貌,還對近兩年興盛起來的強大的深度學習方法進行了深入的細節介紹。讀完本書,你將可以看清最前沿的語音識別是如何構建在深度神經網絡技術上的,可以滿懷自信地去搭建識別能力達到甚至超越人類的語音識別系統。 Sadaoki Furui 芝加哥豐田技術研究所所長,東京理工學院教授 前言 以自然語言人機交互為主要目標的自動語音識別( ASR),在近幾十年來一直是研究的熱點。在 2000 年以前,有眾多語音識別相關的核心技術涌現出來,例如:混合高斯模型( GMM)、隱馬爾可夫模型( HMM)、梅爾倒譜系數( MFCC)及其差分、n 元詞組語言模型( LM)、鑒別性訓練以及多種自適應技術。這些技術極大地推進了ASR 以及相關領域的發展。但是比較起來,在 2000 年到 2010 年間,雖然 GMM-HMM序列鑒別性訓練這種重要的技術被成功應用到實際系統中,但是在語音識別領域中無論是理論研究還是實際應用,進展都相對緩慢與平淡。 然而在過去的幾年里,語音識別領域的研究熱情又一次被點燃。由于移動設備對語音識別的需求與日俱增,并且眾多新型語音應用,例如,語音搜索( VS)、短信聽寫( SMD)、虛擬語音助手(例如,蘋果的 Siri、 Google Now 以及微軟的 Cortana)等在移動互聯世界獲得了成功,新一輪的研究熱潮自然被帶動起來。此外,由于計算能力的顯著提升以及大數據的驅動,深度學習在大詞匯連續語音識別下的成功應用也是同樣重要的影響因素。比起此前最先進的識別技術——GMM-HMM 框架,深度學習 在眾多真實世界的大詞匯連續語音識別任務中都使得識別的錯誤率降低了三分之一或更多,識別率也進入到真實用戶可以接受的范圍內。舉例來說,絕大多數 SMD 系統的識別準確率都超過了 90%,甚至有些系統超過了 95%。 作為研究者,我們參與并見證了這許許多多令人興奮的深度學習技術上的發展。考慮到近年來在學術領域與工業領域迸發的 ASR 研究熱潮,我們認為是時候寫一本書來總結語音識別領域的技術進展,尤其是近年來的最新進展。 最近 20 年,隨著語音識別領域的不斷發展,很多關于語音識別以及機器學習的優秀書籍相繼問世,這里列舉一部分: Deep Learning: Methods and Applications, by Li Deng and Dong Yu (June, 2014) Automatic Speech and Speaker Recognition: Large Margin and Kernel Methods, by Joseph Keshet, Samy Bengio (Jan, 2009) Speech Recognition Over Digital Channels: Robustness and Standards, by Antonio Peinado and Jose Segura (Sept, 2006) Pattern Recognition in Speech and Language Processing, by Wu Chou and Biing-Hwang Juang (Feb, 2003) Speech Processing — A Dynamic and Optimization-Oriented Approach, by Li Deng and Doug O’Shaughnessy (June 2003) Spoken Language Processing: A Guide to Theory, Algorithm and System Development, by Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon (April 2001) Digital Speech Processing: Synthesis, and Recognition, Second Edition, by Sadaoki Furui (June, 2001) Speech Communications: Human and Machine, Second Edition, by Douglas O’Shaughnessy(June, 2000) Speech and Language Processing — An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, by Daniel Jurafsky and James Martin (April, 2000) Speech and Audio Signal Processing, by Ben Gold and Nelson Morgan (April, 2000) Statistical Methods for Speech Recognition, by Fred Jelinek (June, 1997) Fundamentals of Speech Recognition, by Lawrence Rabiner and Biing-Hwang Juang(April, 1993) Acoustical and Environmental Robustness in Automatic Speech Recognition, by Alex Acero (Nov, 1992) 然而,所有這些書或者是出版于 2009 年以前,也就是深度學習理論被提出之前,或者是像我們 2014 年出版的綜述書籍,都沒有特別關注深度學習技術在語音識別領域的應用。早期的書籍缺少 2010 年以后的深度學習新技術,而語音識別領域以及深度學習的研究者所需求的技術及數學細節更是沒能涵蓋其中。不同于以上書籍,本書除了涵蓋必要的背景材料外,特別整理了近年來語音識別領域上深度學習以及鑒別性層次模型的相關研究。本書涵蓋了一系列深度學習模型的理論基礎及對其的理解,其中包括深度神經網絡( DNN)、受限玻爾茲曼機( RBM)、降噪自動編碼器、深度置信網絡、循環神經網絡( RNN)、長短時記憶( LSTM) RNN,以及各種將它們應用到實際系統的技術,例如, DNN-HMM 混合系統、 tandem 和瓶頸系統、多任務學習及遷移學習、序列鑒別性訓練以及 DNN 自適應技術。本書更加細致地討論了搭建真實世界實時語音識別系統時的注意事項、技巧、配置、深層模型的加速以及其他相關技術。為了更好地介紹基礎背景,本書有兩章討論了 GMM 與 HMM 的相關內容。然而由于本書的主題是深度學習以及層次性建模,因而我們略過了 GMM-HMM 的技術細節。所以本書是上面羅列參考書籍的補充,而不是替代。我們相信本書將有益于語音處理及機器學習領域的在讀研究生、研究者、實踐者、工程師以及科學家的學習研究工作。我們希望,本書在提供領域內相關技術的參考以外,能夠激發更多新的想法與創新,進一步促進 ASR 的發展。 在本書的撰寫過程中, Alex Acero、 Geoffrey Zweig、 Qiang Huo、 Frank Seide、 Jasha Droppo、 Mike Seltzer 以及 Chin-Hui Lee 都提供了大量的支持與鼓勵。同時,我們也要感謝 Springer 的編輯 Agata Oelschlaeger 和 Kiruthika Poomalai,他們的耐心和及時的幫助使得本書能夠順利出版。 俞棟 鄧力 美國華盛頓西雅圖 2014 年 7 月 |
內容簡介:本書是首部介紹語音識別中深度學習技術細節的專著。全書首先概要介紹了傳統語音識別理論和經典的深度神經網絡核心算法。接著全面而深入地介紹了深度學習在語音識別中的應用,包括“深度神經網絡-隱馬爾可夫混合模型”的訓練和優化,特征表示學習、模型融合、自適應,以及以循環神經網絡為代表的若干先進深度學習技術。本書適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀,所有的算法及技術細節都提供了詳盡的參考文獻,給出了深度學習在語音識別中應用的全景。 |
目錄:譯者序 iv 序 vii 前言 ix 術語縮寫 xxii 符號 xxvii 第 1 章 簡介 1 1.1 自動語音識別:更好的溝通之橋 . . . . . . 1 1.1.1 人類之間的交流 . . . . . . 2 1.1.2 人機交流 . . . . . . . 2 1.2 語音識別系統的基本結構 . . . . . . 4 1.3 全書結構 . . . . . . . . 6 1.3.1 第一部分:傳統聲學模型 . . . . . 6 1.3.2 第二部分:深度神經網絡 . . . . . 6 1.3.3 第三部分:語音識別中的 DNN-HMM 混合系統 . . . 7 1.3.4 第四部分:深度神經網絡中的表征學習 . . . . 7 1.3.5 第五部分:高級的深度模型 . . . . . 7 第一部分 傳統聲學模型 9 第 2 章 混合高斯模型 11 2.1 隨機變量 . . . . . . . . 11 2.2 高斯分布和混合高斯隨機變量 . . . . . . 12 2.3 參數估計 . . . . . . . . 14 2.4 采用混合高斯分布對語音特征建模 . . . . . 16 第 3 章 隱馬爾可夫模型及其變體 19 3.1 介紹 . . . . . . . . 19 3.2 馬爾可夫鏈 . . . . . . . . 21 3.3 序列與模型 . . . . . . . . 22 3.3.1 隱馬爾可夫模型的性質 . . . . . . 23 3.3.2 隱馬爾可夫模型的仿真 . . . . . . 24 3.3.3 隱馬爾可夫模型似然度的計算 . . . . . 24 3.3.4 計算似然度的高效算法 . . . . . . 26 3.3.5 前向與后向遞歸式的證明 . . . . . 27 3.4 期望最大化算法及其在學習 HMM 參數中的應用 . . . 28 3.4.1 期望最大化算法介紹 . . . . . . 28 3.4.2 使用 EM 算法來學習 HMM 參數——Baum-Welch 算法 . . 30 3.5 用于解碼 HMM 狀態序列的維特比算法 . . . . 34 3.5.1 動態規劃和維特比算法 . . . . . . 34 3.5.2 用于解碼 HMM 狀態的動態規劃算法 . . . . 35 3.6 隱馬爾可夫模型和生成語音識別模型的變體 . . . . 37 3.6.1 用于語音識別的 GMM-HMM 模型 . . . . 38 3.6.2 基于軌跡和隱藏動態模型的語音建模和識別 . . . 39 3.6.3 使用生成模型 HMM 及其變體解決語音識別問題 . . 40 第二部分 深度神經網絡 43 第 4 章 深度神經網絡 45 4.1 深度神經網絡框架 . . . . . . . 45 4.2 使用誤差反向傳播來進行參數訓練 . . . . . 48 4.2.1 訓練準則 . . . . . . . 48 4.2.2 訓練算法 . . . . . . . 49 4.3 實際應用 . . . . . . . . 53 4.3.1 數據預處理 . . . . . . . 54 4.3.2 模型初始化 . . . . . . . 55 4.3.3 權重衰減 . . . . . . . 55 4.3.4 丟棄法 . . . . . . . 56 4.3.5 批量塊大小的選擇 . . . . . . 58 4.3.6 取樣隨機化 . . . . . . . 59 4.3.7 慣性系數 . . . . . . . 60 4.3.8 學習率和停止準則 . . . . . . 61 4.3.9 網絡結構 . . . . . . . 62 4.3.10 可復現性與可重啟性 . . . . . . 62 第 5 章 高級模型初始化技術 65 5.1 受限玻爾茲曼機 . . . . . . . 65 5.1.1 受限玻爾茲曼機的屬性 . . . . . . 67 5.1.2 受限玻爾茲曼機參數學習 . . . . . 70 5.2 深度置信網絡預訓練 . . . . . . . 73 5.3 降噪自動編碼器預訓練 . . . . . . 76 5.4 鑒別性預訓練 . . . . . . . 78 5.5 混合預訓練 . . . . . . . . 78 5.6 采用丟棄法的預訓練 . . . . . . . 79 第三部分 語音識別中的深度神經網絡–隱馬爾可夫混合模型 81 第 6 章 深度神經網絡–隱馬爾可夫模型混合系統 83 6.1 DNN-HMM 混合系統 . . . . . . . 83 6.1.1 結構 . . . . . . . . 83 6.1.2 用 CD-DNN-HMM 解碼 . . . . . . 85 6.1.3 CD-DNN-HMM 訓練過程 . . . . . . 86 6.1.4 上下文窗口的影響 . . . . . . 88 6.2 CD-DNN-HMM 的關鍵模塊及分析 . . . . . 90 6.2.1 進行比較和分析的數據集和實驗 . . . . 90 6.2.2 對單音素或者三音素的狀態進行建模 . . . . 92 6.2.3 越深越好 . . . . . . . 93 6.2.4 利用相鄰的語音幀 . . . . . . 94 6.2.5 預訓練 . . . . . . . 95 6.2.6 訓練數據的標注質量的影響 . . . . . 95 6.2.7 調整轉移概率 . . . . . . . 96 6.3 基于 KL 距離的隱馬爾可夫模型 . . . . . . 96 第 7 章 訓練和解碼的加速 99 7.1 訓練加速 . . . . . . . . 99 7.1.1 使用多 GPU 流水線反向傳播 . . . . . 100 7.1.2 異步隨機梯度下降 . . . . . . 103 7.1.3 增廣拉格朗日算法及乘子方向交替算法 . . . . 106 7.1.4 減小模型規模 . . . . . . . 107 7.1.5 其他方法 . . . . . . . 108 7.2 加速解碼 . . . . . . . . 109 7.2.1 并行計算 . . . . . . . 109 7.2.2 稀疏網絡 . . . . . . . 111 7.2.3 低秩近似 . . . . . . . 113 7.2.4 用大尺寸 DNN 訓練小尺寸 DNN . . . . 114 7.2.5 多幀 DNN . . . . . . . 115 第 8 章 深度神經網絡序列鑒別性訓練 117 8.1 序列鑒別性訓練準則 . . . . . . . 117 8.1.1 最大相互信息 . . . . . . . 118 8.1.2 增強型 MMI . . . . . . . 119 8.1.3 最小音素錯誤/狀態級最小貝葉斯風險 . . . . 120 8.1.4 統一的公式 . . . . . . . 121 8.2 具體實現中的考量 . . . . . . . 122 8.2.1 詞圖產生 . . . . . . . 122 8.2.2 詞圖補償 . . . . . . . 123 8.2.3 幀平滑 . . . . . . . 125 8.2.4 學習率調整 . . . . . . . 125 8.2.5 訓練準則選擇 . . . . . . . 126 8.2.6 其他考量 . . . . . . . 126 8.3 噪聲對比估計 . . . . . . . 127 8.3.1 將概率密度估計問題轉換為二分類設計問題 . . . 127 8.3.2 拓展到未歸一化的模型 . . . . . . 129 8.3.3 在深度學習網絡訓練中應用噪聲對比估計算法 . . . 130 第四部分 深度神經網絡中的特征表示學習 133 第 9 章 深度神經網絡中的特征表示學習 135 9.1 特征和分類器的聯合學習 . . . . . . 135 9.2 特征層級 . . . . . . . . 136 9.3 使用隨意輸入特征的靈活性 . . . . . . 140 9.4 特征的魯棒性 . . . . . . . 141 9.4.1 對說話人變化的魯棒性 . . . . . . 141 9.4.2 對環境變化的魯棒性 . . . . . . 142 9.5 對環境的魯棒性 . . . . . . . 144 9.5.1 對噪聲的魯棒性 . . . . . . 145 9.5.2 對語速變化的魯棒性 . . . . . . 147 9.6 缺乏嚴重信號失真情況下的推廣能力 . . . . . 148 第 10 章 深度神經網絡和混合高斯模型的融合 151 10.1 在 GMM-HMM 系統中使用由 DNN 衍生的特征 . . . . 151 10.1.1 使用 Tandem 和瓶頸特征的 GMM-HMM 模型 . . . 151 10.1.2 DNN-HMM 混合系統與采用深度特征的 GMM-HMM 系統的比較 154 10.2 識別結果融合技術 . . . . . . . 156 10.2.1 識別錯誤票選降低技術( ROVER) . . . . 157 10.2.2 分段條件隨機場( SCARF) . . . . . 159 10.2.3 最小貝葉斯風險詞圖融合 . . . . . 160 10.3 幀級別的聲學分數融合 . . . . . . 160 10.4 多流語音識別 . . . . . . . 161 第 11 章 深度神經網絡的自適應技術 165 11.1 深度神經網絡中的自適應問題 . . . . . . 165 11.2 線性變換 . . . . . . . . 167 11.2.1 線性輸入網絡 . . . . . . . 167 11.2.2 線性輸出網絡 . . . . . . . 167 11.3 線性隱層網絡 . . . . . . . 169 11.4 保守訓練 . . . . . . . . 170 11.4.1 L 2 正則項 . . . . . . . 171 11.4.2 KL 距離正則項 . . . . . . 171 11.4.3 減少每個說話人的模型開銷 . . . . . 173 11.5 子空間方法 . . . . . . . . 175 11.5.1 通過主成分分析構建子空間 . . . . . 175 11.5.2 噪聲感知、說話人感知及設備感知訓練 . . . . 176 11.5.3 張量 . . . . . . . . 180 11.6 DNN 說話人自適應的效果 . . . . . . 181 11.6.1 基于 KL 距離的正則化方法 . . . . . 181 11.6.2 說話人感知訓練 . . . . . . 183 第五部分 先進的深度學習模型 185 第 12 章 深度神經網絡中的表征共享和遷移 187 12.1 多任務和遷移學習 . . . . . . . 187 12.1.1 多任務學習 . . . . . . . 187 12.1.2 遷移學習 . . . . . . . 189 12.2 多語言和跨語言語音識別 . . . . . . 189 12.2.1 基于 Tandem 或瓶頸特征的跨語言語音識別 . . . 190 12.2.2 共享隱層的多語言深度神經網絡 . . . . 191 12.2.3 跨語言模型遷移 . . . . . . 194 12.3 語音識別中深度神經網絡的多目標學習 . . . . 197 12.3.1 使用多任務學習的魯棒語音識別 . . . . 197 12.3.2 使用多任務學習改善音素識別 . . . . . 198 12.3.3 同時識別音素和字素( graphemes) . . . . 199 12.4 使用視聽信息的魯棒語音識別 . . . . . . 199 第 13 章 循環神經網絡及相關模型 201 13.1 介紹 . . . . . . . . 201 13.2 基本循環神經網絡中的狀態-空間公式 . . . . . 203 13.3 沿時反向傳播學習算法 . . . . . . 204 13.3.1 最小化目標函數 . . . . . . 205 13.3.2 誤差項的遞歸計算 . . . . . . 205 13.3.3 循環神經網絡權重的更新 . . . . . 206 13.4 一種用于學習循環神經網絡的原始對偶技術 . . . . 208 13.4.1 循環神經網絡學習的難點 . . . . . 208 13.4.2 回聲狀態( Echo-State)性質及其充分條件 . . . 208 13.4.3 將循環神經網絡的學習轉化為帶約束的優化問題 . . 209 13.4.4 一種用于學習 RNN 的原始對偶方法 . . . . 210 13.5 結合長短時記憶單元( LSTM)的循環神經網絡 . . . . 212 13.5.1 動機與應用 . . . . . . . 212 13.5.2 長短時記憶單元的神經元架構 . . . . . 213 13.5.3 LSTM-RNN 的訓練 . . . . . . 214 13.6 循環神經網絡的對比分析 . . . . . . 214 13.6.1 信息流方向的對比:自上而下還是自下而上 . . . 215 13.6.2 信息表征的對比:集中式還是分布式 . . . . 217 13.6.3 解釋能力的對比:隱含層推斷還是端到端學習 . . . 218 13.6.4 參數化方式的對比:吝嗇參數集合還是大規模參數矩陣 . . 218 13.6.5 模型學習方法的對比:變分推理還是梯度下降 . . . 219 13.6.6 識別正確率的比較 . . . . . . 220 13.7 討論 . . . . . . . . 221 第 14 章 計算型網絡 223 14.1 計算型網絡 . . . . . . . . 223 14.2 前向計算 . . . . . . . . 224 14.3 模型訓練 . . . . . . . . 227 14.4 典型的計算節點 . . . . . . . 231 14.4.1 無操作數的計算節點 . . . . . . 232 14.4.2 含一個操作數的計算節點 . . . . . 232 14.4.3 含兩個操作數的計算節點 . . . . . 237 14.4.4 用來計算統計量的計算節點類型 . . . . 244 14.5 卷積神經網絡 . . . . . . . 245 14.6 循環連接 . . . . . . . . 248 14.6.1 只在循環中一個接一個地處理樣本 . . . . 249 14.6.2 同時處理多個句子 . . . . . . 251 14.6.3 創建任意的循環神經網絡 . . . . . 252 第 15 章 總結及未來研究方向 255 15.1 路線圖 . . . . . . . . 255 15.1.1 語音識別中的深度神經網絡啟蒙 . . . . 255 15.1.2 深度神經網絡訓練和解碼加速 . . . . . 258 15.1.3 序列鑒別性訓練 . . . . . . 258 15.1.4 特征處理 . . . . . . . 259 15.1.5 自適應 . . . . . . . 260 15.1.6 多任務和遷移學習 . . . . . . 261 15.1.7 卷積神經網絡 . . . . . . . 261 15.1.8 循環神經網絡和長短時記憶神經網絡 . . . . 261 15.1.9 其他深度模型 . . . . . . . 262 15.2 技術前沿和未來方向 . . . . . . . 262 15.2.1 技術前沿簡析 . . . . . . . 262 15.2.2 未來方向 . . . . . . . 263 參考文獻 267 |
序: |
|