-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

深度學習:語音識別技術實踐

( 簡體 字)
作者:柳若邊類別:1. -> 程式設計 -> 深度學習
譯者:
出版社:清華大學出版社深度學習:語音識別技術實踐 3dWoo書號: 50796
詢問書籍請說出此書號!

缺書
NT售價: 445

出版日:4/1/2019
頁數:275
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302516927
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

作為人工智能技術的重要組成部分,語音識別旨在研究計算機如何聽懂人的講話。來源于人工神經網絡的深度學習促進了語音識別技術的發展。本書從使用開源的語音識別構建系統Kaldi開始講起,引導讀者親自實現語音識別系統,使用了C#、Perl、Python、Java等多種編程工具。第1章介紹語音識別的基本原理和Kaldi的基本使用方法,以及使用Kaldi開發語音識別系統應用到的Linux shell腳本基礎;第2章介紹使用C#開發語音識別系統;第3章介紹Perl語言開發基礎;第4章介紹開發語音識別系統所需要的Python基礎;第5章介紹使用Java開發語音識別系統;第6章介紹傅里葉變換、MFCC特征等常用的語音信號處理方法;第7章介紹基本的神經網絡和深度學習方法及訓練神經網絡的反向傳播方法;第8章介紹語音識別解碼階段用到的語言模型,以及語言模型工具包——KenLM。
本書適合需要具體實現語音識別的程序員使用,對機器學習等相關領域的研究人員也有一定的參考價值。獵兔搜索技術團隊已經開發出以本書為基礎的專門培訓課程和商業軟件。
本書由柳若邊編著,羅剛、沙蕓、張子憲、許想嬌、石天盈、張繼紅、羅庭亮、王全軍、劉宇、張天津也參與了本書的部分編創工作。本書相關的參考軟件和代碼在讀者QQ群(378025857)的附件中可以找到。Kaldi及其底層依賴的軟件,其復雜程度已經超越了一個人所能掌握的程度。此外,一些具體的細節也可以在讀者QQ群討論。在此,感謝早期合著者、合作伙伴、員工、學員、讀者的支持,他們為本書的編創提供了良好的工作基礎。技術的融合與創新永無止境,就如同在玻璃容器中水培植物一樣,這是一個持久的工作。

編著者
2018年12月
內容簡介:

語音識別已經逐漸進入人們的日常生活。語音識別技術是涉及語言、計算機、數學等領域的交叉學科。《深度學習:語音識別技術實踐》介紹了包括C#、Perl、Python、Java在內的多種編程語言實踐,開源語音識別工具包Kaldi的使用與代碼分析,深度學習的開發環境搭建,卷積神經網絡,以及語音識別中常見的語言模型——N元模型和依存模型等,讓讀者快速了解語音識別基礎,掌握開發語音識別程序的算法。
《深度學習:語音識別技術實踐》從語音識別的基礎開始講起,并輔以翔實的案例,既適合需要具體實現語音識別的程序員使用,也適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀。
目錄:

第1章 語音識別技術 1
1.1總體結構 1
1.2Linux基礎 2
1.3 安裝Micro編輯器 4
1.4安裝Kaldi 5
1.5yesno例子 6
1.5.1數據準備 7
1.5.2詞典準備 8
1.6構建一個簡單的ASR 12
1.7Voxforge例子 21
1.8數據準備 23
1.9加權有限狀態轉換 34
1.9.1FSA 35
1.9.2FST 35
1.9.3WFST 37
1.9.4Kaldi對OpenFst的改進 38
1.10語音識別語料庫 39
1.10.1TIMIT語料庫 39
1.10.2LibriSpeech語料庫 40
1.10.3中文語料庫 40
1.11Linuxshell腳本基礎 40
1.11.1Bash 41
1.11.2AWK 44
第2章 C#開發語音識別 46
2.1準備開發環境 46
2.2計算卷積 47
2.3記錄語音 48
2.4讀入語音信號 52
2.5離散傅里葉變換 53
2.6移除靜音 54
第3章 Perl開發語音識別 58
3.1變量 58
3.1.1數字 58
3.1.2字符串 59
3.1.3數組 60
3.1.4散列表 60
3.2多維數組 62
3.3常量 62
3.4操作符 63
3.5控制流 66
3.6文件與目錄 67
3.7例程 68
3.8執行命令 69
3.9正則表達式 69
3.9.1基本類型 69
3.9.2正則表達式模式 70
3.10命令行參數 72
第4章 Python開發語音識別 73
4.1Windows操作系統下安裝Python 73
4.2Linux操作系統下安裝Python 75
4.3選擇版本 76
4.4開發環境 76
4.5注釋 77
4.6變量 77
4.6.1數值 77
4.6.2字符串 79
4.7數組 80
4.8列表 80
4.9元組 80
4.10字典 81
4.11控制流 81
4.11.1條件判斷 81
4.11.2循環 82
4.12模塊 83
4.13函數 84
4.14讀寫文件 86
4.15面向對象編程 87
4.16命令行參數 88
4.17數據庫 90
4.18日志記錄 90
4.19異常處理 92
4.20測試 92
4.21語音活動檢測 93
4.22使用numpy 93
第5章 Java開發語音識別 94
5.1實現卷積 95
5.2KaldiJava 96
5.2.1使用Ant 97
5.2.2使用Maven 99
5.2.3使用Gradle 100
5.2.4概率分布函數 102
5.3TensorFlow的Java接口 104
5.3.1在Windows操作系統下使用TensorFlow 104
5.3.2在Linux操作系統下使用TensorFlow 106
第6章 語音信號處理 109
6.1使用FFmpeg 109
6.2標注語音 110
6.3時間序列 112
6.4 端點檢測 113
6.5動態時間規整 114
6.6傅里葉變換 117
6.6.1離散傅里葉變換 117
6.6.2快速傅里葉變換 120
6.7MFCC特征 124
6.8說話者識別 125
6.9解碼 125
第7章 深度學習 132
7.1神經網絡基礎 132
7.1.1實現多層感知器 135
7.1.2計算過程 143
7.2卷積神經網絡 150
7.3搭建深度學習開發環境 156
7.3.1使用Cygwin模擬環境 156
7.3.2使用CMake 157
7.3.3使用Keras 158
7.3.4安裝TensorFlow 161
7.3.5安裝TensorFlow的Docker容器 162
7.3.6使用TensorFlow 164
7.3.7一維卷積 208
7.3.8二維卷積 210
7.3.9擴張卷積 213
7.3.10TensorFlow實現簡單的語音識別 214
7.4nnet3實現代碼 216
7.4.1數據類型 217
7.4.2基本數據結構 219
7.5編譯Kaldi 230
7.6端到端深度學習 232
7.7Dropout解決過度擬合問題 232
7.8矩陣運算 235
第8章 語言模型 238
8.1概率語言模型 238
8.1.1一元模型 240
8.1.2數據基礎 240
8.1.3改進一元模型 249
8.1.4二元詞典 251
8.1.5完全二叉樹數組 257
8.1.6三元詞典 261
8.1.7N元模型 262
8.1.8生成語言模型 264
8.1.9評估語言模型 265
8.1.10平滑算法 266
8.2KenLM語言模型工具包 271
8.3ARPA文件格式 275
8.4依存語言模型 278
序: