-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

聲紋技術:從核心算法到工程實踐

( 簡體 字)
作者:王泉類別:1. -> 程式設計 -> 綜合
譯者:
出版社:電子工業出版社聲紋技術:從核心算法到工程實踐 3dWoo書號: 53456
詢問書籍請說出此書號!

缺書
NT售價: 495

出版日:9/1/2020
頁數:292
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121395291
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:


初次認識本書作者王泉是在 2018 年暑假,當時我還在谷歌的研究部門工作。由于所在部門商業項目的需求,我和我的實習生張傲南正嘗試解決在人數未知情況下聲紋分割聚類的問題。苦于沒有任何關于聲紋技術的背景知識,我們十分渴望能夠在谷歌內部找到志同道合的研究員共同推進這個項目。于是,我們查閱了谷歌最新發表的幾篇與聲紋技術相關的論文,發現所有論文的作者一欄都有王泉博士的名字。巧合的是,王泉和我也都畢業于清華大學自動化系。我們覺得王泉可能就是我們要找的理想合作者,于是我們聯系了王泉尋求合作可能性。幸運的是,王泉爽快地答應了。
事后回顧,與王泉合作無疑是一個無比正確的選擇。王泉的加入對項目的后續發展起到了決定性的作用。他對聲紋技術的深刻理解及對新技術的執著追求使得這個合作項目迅速走上正軌。據我們所知,這個研究第一次將監督學習引入聲紋分割聚類問題中,大幅提高了算法在說話人數量未知情況下的實驗表現。最終,我們的研究結果發表在 ICASSP 2019,也就是語音領域最重要的國際會議之一。目前為止,我們通過
Google AI Blog 向外界發布的該項目的開源軟件在 GitHub 平臺上獲得了超過 1200 個星標收藏。
語音及聲紋技術是實現人工智能美好愿景中一個必備的關鍵組件。如今,王泉愿意把自己在語音領域,特別是聲紋技術方面多年的研究及工程經驗積累寫成專業書籍惠及廣大讀者,是這個領域一個重要的里程碑,填補了聲紋技術專著方面的空白。本書將對相關技術的進一步快速普及和發展起到積極的推動作用,吸引更多的人才從事語音及聲紋技術的研究和開發。作為業界第一本全面且系統地介紹聲紋技術的書籍,作者花費了大量精力來保證深度和廣度的平衡,使得處在不同階段的聲紋技術工程和研究人員都能從中獲益。總結起來,本書有如下特色:
? 門檻方面,本書從最基礎的人耳聽覺感知和音頻信號處理等技術講起,即使沒有任何音頻基礎的讀者也能無障礙上手。
? 內容方面,本書不僅介紹了聲紋識別,還介紹了聲紋分割聚類,包含了本序開始提到的基于監督學習的聲紋分割聚類和后續的發展。據我所知,無論是中文還是英文書籍,都從來沒有系統介紹過這方面的內容。此外,本書還介紹了聲紋技術在語音識別、語音合成、人聲分離方面的應用,也是業內唯一一本系統介紹這些內容的專著。
? 本書內容不僅涵蓋了 20 世紀 60 年代的最早期聲紋識別方法,還介紹了大量 2019年和 2020 年發表的論文,緊隨業界最新發展。
? 本書除了介紹學術內容,還有專門的章節(第 4 章)介紹工程部署,覆蓋了聲紋技術部署的諸多實際課題(如版本控制、分布式計算等)。這也是業內獨一無二的。
? 本書配備了很多動手實踐,教讀者使用常用的 Python 工具包構建實例,進行實驗,避免紙上談兵。
? 本書為每一章配備了思考和練習題,因此本書也十分適合作為大學教材。
技術書籍的寫作過程通常是比較枯燥的,在保證其科學嚴謹性的同時也要保證其可讀性,才能發揮專業書籍的最大影響力。這需要科研的奉獻精神、很強的執行力及大量的精力投入。從我和王泉合作的過程中,我發現王泉在這些方面的特質非常突出。
相信讀者在研讀本書時也能很快體會到這些點。同時,我們也期待未來會有更多活躍在聲紋和語音領域一線的專家,將其專業知識以中文的形式出版成書,造福更多的華人學者。

字節跳動應用機器學習研究組負責人
王崇

前言
我是如何進入語音領域的
每個人最初進入自己的專業領域,或多或少都有著一些契機——可能是因為一篇文章、一本書,也可能是與師長前輩的一番對話,或者是偶爾參加的一個大師講座。我進入語音分析領域,也屬機緣巧合。
我在本科與博士期間所進行的研究,主要都是圖像處理和計算機視覺相關的課題。由于當時深度學習方法尚未普及,我的研究更多是圍繞底層的圖像處理算法與幾何模型的。
博士畢業后我的第一份工作,是在美國亞馬遜公司從事光學文字識別(optical char?acter recognition,OCR)相關的研究和產品開發。由于文字識別本質上也是處理圖像的一種,因此也算是與我的博士研究方向對口。然而,文字識別有著與其他計算機視覺問題十分不同的特性,那就是——文字是有著固定的書寫方向和排版規律的,而且在書寫、排版的方向上,字符與字符之間更是有著上下文的語義關聯。一旦我們從圖片中檢測出文字的位置、高度及方向,接下來的問題,更像是一個一維的信號處理問題,而不是二維的圖像識別問題。
當時亞馬遜有著一套現成的語音識別框架,因此我們便將文字識別的問題,轉換成了一個偽語音識別問題。我們在檢測到的文字方向上,用滑動窗口來提取視覺特征,再將這些視覺特征當作分幀處理后的音頻特征,輸入到語音識別的框架里進行模型的訓練。而模型的輸出,與語音識別一樣,都是字符序列。通過這種方法,我們發現文字識別的準確率遠高于基于其他框架的方法,而在這項文字識別的研究過程中,通過對語音識別框架的使用,我也積累了大量的語音識別基礎知識及工作經驗。就這樣,我從一名計算機視覺領域的研究者,平滑地轉變為一名語音識別領域的研究者。
通過在亞馬遜積累的知識與經驗,在入職谷歌的時候,我有幸直接加入了谷歌的語音分析組,并開始從事聲紋技術方面的研究與產品開發。在谷歌的新環境里,我很快適應了新的工作內容,這要歸功于我在亞馬遜工作期間的積累。
本書緣起
回憶起我在亞馬遜工作的那段時光,雖然充實,但也有著很大的壓力。我在亞馬遜所在的組,是一個傾向于科研而非產品的組,因此相比于大多數亞馬遜員工,來自工作環境本身的壓力并不是很大。我所感受到的壓力,更多是自身知識水平的嚴重不足導致的危機感。每次與組里的其他成員開會討論,或者評審他們的代碼、文檔,都會遇到大量的概念與方法,是我當時難以理解的。而這些概念與方法,很多都是語音識別領域的基礎知識。為此,每天下班后,我都會花大量的時間,查閱語音識別方面的教程、文獻和網上的文章。然而,由于這些內容大多數都是英文的,對于當時剛剛接觸語音識別領域的我來說,閱讀起來效率很低。當時的我就十分感慨:如果有一本中文的教程,從基礎概念開始,詳細地介紹我所需要的領域專業知識,那該有多好。我也試著尋找過中文教程,只不過當時我能夠找到的教程,其內容早已嚴重過時。
后來,我在谷歌成為團隊主管,每次招聘新的團隊成員,如果該成員沒有語音領域相關的背景,那么也會面臨著和我曾經入職亞馬遜時相同的困境。每次我都會花大量的時間,向新的團隊成員介紹音頻信號處理和聲紋識別相關的背景技術,以及聲紋領域的研究前沿成果。
以上這些經歷,便是我編寫本書的原始動機。對于所有以中文為母語的朋友,我希望本書能夠快速地幫助你掌握聲紋技術所需要的基礎知識,并熟悉最前沿的方法。我希望讀者在讀完本書之后,再去閱讀其他與聲紋相關的文章,或者使用與聲紋相關的工具時,能夠快速理解其核心內容,并通過與本書介紹的概念、方法進行聯系和比較,大幅提升自己學習、工作的效率。
適讀人群
本書的目標讀者主要有兩類:
1. 在高等院校里,高年級本科生、研究生、博士生,以及教職人員與科研工作者,可以將本書作為聲紋技術領域的基礎教材。通過學習本書,能夠對聲紋技術有深入淺出的了解。若是將本書作為大學教材,每章末尾的“思考與練習”還可以作為課后習題。
2. 在企事業單位里,軟件工程師、系統架構師、產品經理等,可以將本書作為一本參考工具書,在設計、實現、部署與聲紋有關的產品和服務時,可以快速查閱相關的技術與方法,為自己的工作提供額外的指導。
閱讀本書前,讀者并不需要具備音頻處理、語音識別等領域的相關知識,這部分內容會在第 2 章系統地學習。不過,建議讀者在閱讀本書前,先了解一些機器學習,尤其是神經網絡、深度學習方面的基本概念。盡管這些概念在本書第 3 章里也會提及,但這些并不是本書的重點,所以不會在書中深入講解。
本書特色
本書雖然以聲紋技術為主線,但是并不僅局限于各種具體的聲紋技術,而是會涉及所有與聲紋技術相關的基礎知識,并且會從工程方面對聲紋技術的具體部署進行指導。本書涉及的一些知識點,例如聽覺感知、音頻傳輸、流式信號處理、模型量化壓縮等,乍看上去與聲紋技術并無任何直接關系,但這些都是在聲紋領域的實際工作中不得不接觸的內容。
此外,本書在介紹概念與方法的同時,還會具體介紹一些工具及程序庫(以 Python語言為主)的使用,并提供一些實踐案例。熟練掌握這些基礎工具,將會大大提升日常研究與開發的效率。在每章內容的結尾,本書還設置了若干道思考題與練手實踐項目,以幫助讀者進一步鞏固本章的重要知識點?。因此,與其說本書是一本聲紋技術的教科書,不如說本書是一本針對所有聲紋領域研究、工作人員的百科全書及實用手冊。
本書不僅介紹了聲紋領域經典的模型與方法,還涵蓋領域里前沿的研究與應用,包括大量發表于 2019 年和 2020 年的文章。讀者可以通過閱讀本書對這些前沿工作的介紹,讓自己的知識儲備領先于同行,并對整個聲紋領域的未來發展趨勢有一個大致的了解。
本書結構
在第 1 章,我們先對聲紋的基本概念進行直觀的描述,然后縱觀聲紋技術的整個發展史,從最早的人工鑒定法,一直到最先進的深度學習法。由于聲紋技術在學科領域劃分里屬于音頻處理技術,所以在第 2 章,我們重點介紹一些與聲紋技術密切相關的音頻信號處理基本概念,為接下來的章節做準備。第 3 章是本書的核心章節,介紹聲紋技術最重要的應用——聲紋識別(又稱“說話人識別”)。不過,掌握了聲紋識別技
術,并不代表能立即將其投入到相關的產品與服務開發中。因此在第 4 章,我們討論了一些聲紋識別技術在實際工程部署中的相關問題,并介紹了幾種常見的部署架構。第 5章介紹聲紋技術的另一個核心應用——聲紋分割聚類。第 6 章用較短的篇幅介紹聲紋技術除識別與分割聚類外的其他應用。在第 7 章,我們探討聲紋技術目前尚待解決的問題,并展望聲紋技術未來的發展方向。

作者
內容簡介:

這是第一本系統性地介紹聲紋識別、聲紋分割聚類及聲紋在語音識別、語音合成、人聲分離等領域中應用的技術書。本書內容全面且緊隨時代前沿,不僅涵蓋了早至 20世紀 60 年代的經典方法,而且以大量篇幅著重介紹了深度學習時代的最新技術。本書注重理論與實踐的結合,除了配備大量實踐案例與習題,還有專門章節介紹聲紋技術在實際工程部署方面的諸多課題。本書面向大學與研究機構的學生、教研人員,以及企事業單位從事聲紋技術相關工作的工程師、架構師和產品經理等。
目錄:

1 聲紋技術的前世今生 1
1.1 什么是聲紋 . . . . . 1
1.2 最早的聲紋技術 . . . . 2
1.3 聲紋技術的發展 . . . . 5
1.3.1 聲紋技術與音頻信號處理 . . . . 5
1.3.2 模板匹配方法 . . . . . 6
1.3.3 早期統計學方法 . . . 8
1.3.4 高斯混合模型 . . . . . 8
1.3.5 聯合因子分析與 i-vector . . . 9
1.4 大變革:深度學習時代的來臨 . . . . 10
1.5 新的機遇:智能語音助手的普及 . . . 11
2 音頻信號處理基礎 14
2.1 欲懂聲紋,先學音頻 . . . . . 14
2.2 聲學基礎 . . . . 15
2.2.1 語音的產生 . . . . 15
2.2.2 正弦波 . . . . . 16
2.2.3 頻譜 . . . . 17
2.2.4 聽覺與感知 . . . . 18
2.2.5 聽覺的非線性 . . . . . 21
2.3 音頻信號基礎概念 . . . . . 24
2.3.1 模擬音頻信號 . . . . . 25
2.3.2 模擬轉數字:采樣與量化 . . . . 27
2.3.3 音頻編碼 . . . . 29
2.3.4 音頻文件格式 . . . . . 33
2.3.5 動手實踐:SoX 程序 . . . . 35
2.4 從信號到特征:短時分析 . . . 38
2.4.1 傳統特征分析的不足 . . . 38
2.4.2 分幀 . . . . 38
2.4.3 窗函數處理 . . . . 39
2.4.4 幀疊加與幀采樣 . . . 41
2.5 常用的音頻特征 . . . . 42
2.5.1 時域特征 . . . . 42
2.5.2 從時域到頻域:傅里葉變換 . . . . 45
2.5.3 頻譜、倒譜、時頻譜和功率譜 . . . 48
2.5.4 感知線性預測 . . . . . 49
2.5.5 梅爾倒譜系數 . . . . . 49
2.5.6 功率正則化倒譜系數 . . . 50
2.5.7 動手實踐:用 LibROSA 提取 MFCC 特征 . . 50
3 聲紋識別技術 54
3.1 聲紋識別:聲紋技術的核心 . . . 54
3.1.1 名稱與概念 . . . . 54
3.1.2 按任務分類 . . . . 55
3.1.3 按文本內容分類 . . . 56
3.1.4 系統流程 . . . . 58
3.2 聲紋識別的評價指標 . . . . . 60
3.2.1 相似匹配 . . . . 60
3.2.2 錄入集與驗證集 . . . 61
3.2.3 ROC 曲線及曲線下面積 . . . 62
3.2.4 等錯率 . . . . . 63
3.2.5 最小檢測代價函數 . . . . 64
3.2.6 辨認準確率 . . . . 64
3.3 深度學習之前的方法 . . . . . 65
3.3.1 早期方法 . . . . 65
3.3.2 高斯混合模型方法 . . . . 66
3.3.3 高斯混合模型-通用背景模型 . . . . 70
3.3.4 高斯混合模型-支持向量機 . . . 72
3.3.5 聯合因子分析 . . . . . 74
3.3.6 i-vector 方法 . . . . 76
3.4 基于深度學習的方法 . . . . . 78
3.4.1 關于深度學習的簡單介紹 . . . . 79
3.4.2 聲紋識別中的神經網絡 . . . 84
3.4.3 運行時的推理邏輯 . . . . 86
3.4.4 聲紋識別中的損失函數 . . . 93
3.5 聲紋識別中的數據處理 . . . . 102
3.5.1 聲紋識別的數據需求 . . . 102
3.5.2 數據預處理 . . . . 103
3.5.3 數據增強 . . . . 105
3.5.4 多數據集訓練 . . . . . 110
3.6 聲紋驗證 . . . . 112
3.6.1 驗證方法 . . . . 112
3.6.2 分數正則化 . . . . 112
3.7 常用數據集 . . . . . 115
3.7.1 TIMIT . . . . . 115
3.7.2 VCTK . . . . . 115
3.7.3 LibriSpeech . . . . 116
3.7.4 LibriVox . . . . 116
3.7.5 VoxCeleb . . . . 116
3.7.6 CN-Celeb . . . . . 117
3.7.7 BookTubeSpeech . . . 117
3.7.8 維基百科語音庫 . . . 117
3.7.9 DeepMine . . . . . 118
4 聲紋識別的工程部署 120
4.1 從模型到產品 . . . . . 120
4.1.1 模型不等于產品 . . . 120
4.1.2 軟件工程基本概念 . . . . 120
4.2 聲紋識別常見工程問題 . . . . 126
4.2.1 錄入階段的工程問題 . . . 126
4.2.2 識別階段的工程問題 . . . 128
4.2.3 語音處理引擎:流式信號處理與計算圖 . . . 131
4.2.4 模型版本迭代 . . . . . 137
4.2.5 在線代理指標 . . . . . 138
4.3 全設備端部署 . . . . . 139
4.3.1 部署方式的分類依據 . . . 139
4.3.2 版本迭代更新 . . . . . 139
4.3.3 資源限制:設備端的最大挑戰 . . . 141
4.3.4 模型量化技術 . . . . . 141
4.4 全服務器端部署 . . . . 144
4.4.1 全服務器端架構 . . . 144
4.4.2 版本迭代更新 . . . . . 145
4.4.3 負載均衡與故障處理 . . . 149
4.5 復合式部署 . . . . . 151
4.5.1 聲紋信息的敏感性 . . . . 151
4.5.2 復合式架構 . . . . 152
4.5.3 版本迭代更新 . . . . . 153
5 聲紋分割聚類技術 156
5.1 分割聚類:更好地理解對話語音 . . . 156
5.1.1 關于名稱與歷史 . . . 156
5.1.2 常見應用 . . . . 157
5.1.3 常見通用架構 . . . . . 160
5.1.4 聲紋分割聚類的不同任務類型 . . . 162
5.2 聲紋分割聚類與多說話人識別 . . . . 163
5.2.1 聲源分離 . . . . 163
5.2.2 連續聲紋識別 . . . . . 164
5.2.3 說話人轉換檢測 . . . 165
5.3 聚類分析 . . . . 167
5.3.1 聚類不等于分類 . . . 167
5.3.2 在線聚類技術 . . . . . 167
5.3.3 離線聚類技術 . . . . . 170
5.3.4 基于離線聚類的在線聲紋分割聚類 . . 178
5.4 二次分割方法 . . . . . 180
5.4.1 基于分類的二次分割 . . . 180
5.4.2 基于隱馬爾可夫模型的二次分割 . . . 181
5.5 監督式方法 . . . . . 182
5.5.1 聚類方法的一些問題 . . . 182
5.5.2 從傳統聚類到監督式方法 . . . . 184
5.5.3 無界交織態循環神經網絡 . . . . 187
5.5.4 判別神經聚類 . . . . . 191
5.5.5 置換不變性訓練 . . . 195
5.5.6 端到端模型 . . . . 198
5.5.7 與語音識別的聯合訓練 . . . 200
5.6 聲紋分割聚類的評價指標 . . . 203
5.6.1 評價指標的置換不變性 . . . 203
5.6.2 分割聚類錯誤率 . . . 203
5.6.3 詞分割聚類錯誤率 . . . . 205
5.6.4 其他指標 . . . . 206
5.7 常用數據集 . . . . . 206
5.7.1 CALLHOME . . . . . 206
5.7.2 NIST SRE 2000 . . . . 207
5.7.3 ICSI . . . . . 208
5.7.4 Fisher . . . . 208
5.7.5 AMI . . . . 209
6 聲紋技術的其他應用 211
6.1 聲紋的力量 . . . . . 211
6.2 用于語音識別 . . . . . 212
6.2.1 語音識別技術概述 . . . . 212
6.2.2 聲紋自適應聲學模型 . . . 213
6.3 用于語音合成 . . . . . 214
6.3.1 語音合成技術概述 . . . . 214
6.3.2 聲紋克隆:合成任意說話人的聲音 . . 218
6.4 用于語音檢測 . . . . . 220
6.4.1 語音檢測技術概述 . . . . 220
6.4.2 個性化語音檢測 . . . 220
6.5 用于人聲分離 . . . . . 221
6.5.1 人聲分離技術概述 . . . . 221
6.5.2 定向人聲分離 . . . . . 223
6.6 聲紋轉換 . . . . 226
6.7 聲紋還原度測試 . . . . 227
6.7.1 音頻處理的聲紋保留性質 . . . . 227
6.7.2 音頻編碼格式的還原度測試 . . . . 228
6.7.3 語音合成技術的還原度測試 . . . . 229
7 聲紋技術的未來 231
7.1 概述 . . . . . 231
7.2 聲紋技術的挑戰 . . . . 231
7.2.1 對信道變化的魯棒性 . . . 231
7.2.2 對聲紋變化的魯棒性 . . . 232
7.2.3 反欺詐 . . . . . 233
7.3 對更多數據的需求 . . . . . 235
7.3.1 更為多樣的數據增強 . . . 235
7.3.2 用于訓練的合成語音 . . . 237
7.3.3 自動數據采集 . . . . . 237
7.4 聲紋技術的未來研究方向 . . . 238
7.4.1 對抗學習 . . . . 238
7.4.2 多模態說話人識別 . . . . 240
7.4.3 聯邦學習 . . . . 241
7.4.4 集成學習 . . . . 243
7.4.5 同時完成聲紋分割聚類與人聲分離 . . 245
7.5 結語 . . . . . 246
中英詞匯對照 248
參考文獻 259
序: