|
-- 會員 / 註冊 --
|
|
|
|
機器翻譯:基礎與模型 ( 簡體 字) |
作者:肖桐,朱靖波 | 類別:1. -> 程式設計 -> 綜合 |
譯者: |
出版社:電子工業出版社 | 3dWoo書號: 55238 詢問書籍請說出此書號!【有庫存】 NT售價: 1495 元 |
出版日:9/1/2021 |
頁數:648 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787121335198 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:本書特色
本書全面回顧了近 30 年機器翻譯技術的發展歷程,并圍繞機器翻譯的建模和深度學習方法這兩個主題對機器翻譯的技術方法進行了全面介紹。在寫作中,筆者力求用樸實的語言和簡潔的實例闡述機器翻譯的基本模型,同時對相關的技術前沿進行討論。其中涉及大量的實踐經驗,包括許多機器翻譯系統開發的細節。從這個角度看,本書不僅是一本理論書,還結合了機器翻譯的應用,給讀者提供了很多機器翻譯技術落地的思路。
本書可供計算機相關專業高年級本科生及研究生學習之用,也可作為自然語言處理領域,特別是機器翻譯方向相關研究人員的參考資料。此外,本書各章主題明確,內容緊湊。因此,讀者可將每章作為某一專題的學習資料。
用最簡單的方式闡述機器翻譯的基本思想是筆者期望達到的目標。雖然書中不可避免地使用了一些形式化的定義和算法的抽象描述,但筆者也盡所能地通過圖例對其進行了解釋(本書共 395 張插圖)。本書所包含的內容較為廣泛,難免會有疏漏,望讀者海涵,并指出不當之處。 |
內容簡介:利用機器翻譯技術實現不同語言之間的自由交流始終是最令人期待的計算機應用之一。本書全面回顧了近30年來機器翻譯的技術發展歷程,遵循機器翻譯技術的發展脈絡,對基于統計和基于端到端深度學習的機器翻譯關鍵技術及原理進行了深入講解,力求做到簡潔明了、全面透徹、圖文結合。此外,本書著重介紹了近年來機器翻譯領域的科研熱點及其結果,旨在幫助讀者全面了解機器翻譯的前沿研究進展和關鍵技術。本書可供計算機相關專業高年級本科生及研究生學習使用,也可作為自然語言處理,特別是機器翻譯相關研究人員的案邊手冊。 |
目錄:第 1 部分 機器翻譯基礎
1 機器翻譯簡介 . . . 2
1.1 機器翻譯的概念 . . . 2
1.2 機器翻譯簡史 . . . . . 4
1.2.1 人工翻譯. . . . 4
1.2.2 機器翻譯的萌芽 . . . 5
1.2.3 機器翻譯的受挫 . . . 6
1.2.4 機器翻譯的快速成長 . . . . 7
1.2.5 機器翻譯的爆發 . . . 8
1.3 機器翻譯現狀及挑戰 . . . . 9
1.4 基于規則的機器翻譯方法 . . . . 12
1.4.1 規則的定義 . . . . 12
1.4.2 轉換法. . . . . 13
1.4.3 基于中間語言的方法 . . . 15
1.4.4 基于規則的方法的優缺點. . . . .16
1.5 數據驅動的機器翻譯方法 . . . . 16
1.5.1 基于實例的機器翻譯 . . . 16
1.5.2 統計機器翻譯 . . . . 17
1.5.3 神經機器翻譯 . . . . 18
1.5.4 對比分析. . . . .19
1.6 推薦學習資源 . . . .20
1.6.1 經典書籍. . . . .20
1.6.2 相關學術會議 . . . . 21
2 統計語言建模基礎 . . . .24
2.1 概率論基礎 . . . . 24
2.1.1 隨機變量和概率. . . . 24
2.1.2 聯合概率、條件概率和邊緣概率. . . . 26
2.1.3 鏈式法則. . . . .27
2.1.4 貝葉斯法則 . . . . 28
2.1.5 KL 距離和熵 . . . 29
2.2 擲骰子游戲 . . . . . .31
2.3 n-gram 語言模型 . . . . .34
2.3.1 建模 . . . . . 35
2.3.2 參數估計和平滑算法 . . . 37
2.3.3 語言模型的評價. . . . 42
2.4 預測與搜索 . . . . . 43
2.4.1 搜索問題的建模. . . . 44
2.4.2 經典搜索. . . . .47
2.4.3 局部搜索. . . . .50
2.5 小結及拓展閱讀 . . . 52
3 詞法分析和語法分析基礎. . . . .54
3.1 問題概述 . . . . 54
3.2 中文分詞 . . . . 56
3.2.1 基于詞典的分詞方法 . . . 57
3.2.2 基于統計的分詞方法 . . . 58
3.3 命名實體識別 . . . 60
3.3.1 序列標注任務 . . . . 60
3.3.2 基于特征的統計學習 . . . 62
3.3.3 基于概率圖模型的方法 . . . 63
3.3.4 基于分類器的方法 . . . 69
3.4 句法分析 . . . . 71
3.4.1 句法樹. . . . . 71
3.4.2 上下文無關文法. . . . 73
3.4.3 規則和推導的概率 . . . 77
3.5 小結及拓展閱讀 . . . 79
4 翻譯質量評價 . . . .81
4.1 譯文質量評價面臨的挑戰 . . . . 81
4.2 人工評價 . . . . 84
4.2.1 評價策略. . . . .84
4.2.2 打分標準. . . . .85
4.3 有參考答案的自動評價 . . . . 86
4.3.1 基于詞串比對的評價方法. . . . .86
4.3.2 基于詞對齊的評價方法 . . . 89
4.3.3 基于檢測點的評價方法 . . . 93
4.3.4 多策略融合的評價方法 . . . 94
4.3.5 譯文多樣性 . . . . 94
4.3.6 相關性與顯著性. . . . 98
4.4 無參考答案的自動評價 . . . 101
4.4.1 質量評估任務 . . . 101
4.4.2 構建質量評估模型 . . . . 106
4.4.3 質量評估的應用場景 . . . . 107
4.5 小結及拓展閱讀 . . . . 108
第 2 部分 統計機器翻譯
5 基于詞的機器翻譯建模. . . . .111
5.1 詞在翻譯中的作用 . . . . 111
5.2 一個簡單實例 . . . . 113
5.2.1 翻譯的流程 . . . 113
5.2.2 統計機器翻譯的基本框架. . . .115
5.2.3 單詞級翻譯模型. . . 116
5.2.4 句子級翻譯模型. . . 119
5.2.5 解碼 . . . . 122
5.3 噪聲信道模型 . . . . 125
5.4 統計機器翻譯的 3 個基本問題 . . . . 127
5.4.1 詞對齊. . . . 128
5.4.2 基于詞對齊的翻譯模型. . . . 129
5.4.3 基于詞對齊的翻譯實例. . . . 130
5.5 IBM 模型 1 . . . . . 131
5.5.1 IBM 模型 1 的建模 . . . . 131
5.5.2 解碼及計算優化. . . . .133
5.5.3 訓練 . . . . 134
5.6 小結及拓展閱讀 . . . . 140
6 基于扭曲度和繁衍率的模型 . . . . 142
6.1 基于扭曲度的模型 . . . . 142
6.1.1 什么是扭曲度 . . . 142
6.1.2 IBM 模型 2 . . . 144
6.1.3 隱馬爾可夫模型. . . . .145
6.2 基于繁衍率的模型 . . . .146
6.2.1 什么是繁衍率 . . . 146
6.2.2 IBM 模型 3 . . . 149
6.2.3 IBM 模型 4 . . . 151
6.2.4 IBM 模型 5 . . . 152
6.3 解碼和訓練 . . . . 154
6.4 問題分析 . . . . .154
6.4.1 詞對齊及對稱化. . . . .154
6.4.2 “缺陷”問題 . . . 155
6.4.3 句子長度 . . . 156
6.4.4 其他問題 . . . 156
6.5 小結及拓展閱讀 . . . . 157
7 基于短語的模型. . . .158
7.1 翻譯中的短語信息 . . . . 158
7.1.1 詞的翻譯帶來的問題 . . . . 158
7.1.2 更大粒度的翻譯單元 . . . . 159
7.1.3 機器翻譯中的短語 . . . . 161
7.2 數學建模 . . . . . 164
7.2.1 基于翻譯推導的建模 . . . . 164
7.2.2 對數線性模型 . . . 166
7.2.3 判別模型中的特征 . . . . 167
7.2.4 搭建模型的基本流程 . . . . 167
7.3 短語抽取 . . . . . 168
7.3.1 與詞對齊一致的短語 . . . . 168
7.3.2 獲取詞對齊 . . . 169
7.3.3 度量雙語短語質量 . . . . 170
7.4 翻譯調序建模 . . . . 172
7.4.1 基于距離的調序. . . . .172
7.4.2 基于方向的調序. . . . .173
7.4.3 基于分類的調序. . . . .174
7.5 翻譯特征 . . . . . 175
7.6 最小錯誤率訓練 . . . . 175
7.7 棧解碼 . . . . . 179
7.7.1 翻譯候選匹配 . . . 180
7.7.2 翻譯假設擴展 . . . 181
7.7.3 剪枝 . . . . 181
7.7.4 解碼中的棧結構. . . . .183
7.8 小結及拓展閱讀 . . . . 184
8 基于句法的模型 . . . 186
8.1 翻譯中句法信息的使用 . . . 186
8.2 基于層次短語的模型 . . . 188
8.2.1 同步上下文無關文法 . . . . 190
8.2.2 層次短語規則抽取 . . . . 194
8.2.3 翻譯特征 . . . 196
8.2.4 CKY 解碼 . . . . 197
8.2.5 立方剪枝 . . . 200
8.3 基于語言學句法的模型 . . . 203
8.3.1 基于句法的翻譯模型分類 . . . 205
8.3.2 基于樹結構的文法 . . . . 206
8.3.3 樹到串翻譯規則抽取 . . . . 212
8.3.4 樹到樹翻譯規則抽取 . . . . 220
8.3.5 句法翻譯模型的特征 . . . . 223
8.3.6 基于超圖的推導空間表示 . . . 224
8.3.7 基于樹的解碼 vs 基于串的解碼 . . . . 227
8.4 小結及拓展閱讀 . . . . 231
第 3 部分 神經機器翻譯
9 神經網絡和神經語言建模 . . . 234
9.1 深度學習與神經網絡 . . . .234
9.1.1 發展簡史 . . . 235
9.1.2 為什么需要深度學習 . . . . 237
9.2 神經網絡基礎 . . . . 239
9.2.1 線性代數基礎 . . . 239
9.2.2 神經元和感知機. . . . .244
9.2.3 多層神經網絡 . . . 248
9.2.4 函數擬合能力 . . . 252
9.3 神經網絡的張量實現 . . . 256
9.3.1 張量及其計算 . . . 256
9.3.2 張量的物理存儲形式 . . . . 259
9.3.3 張量的實現手段. . . . .259
9.3.4 前向傳播與計算圖 . . . . 260
9.4 神經網絡的參數訓練 . . . 262
9.4.1 損失函數 . . . 262
9.4.2 基于梯度的參數優化 . . . . 264
9.4.3 參數更新的并行化策略. . . . 272
9.4.4 梯度消失、梯度爆炸和穩定性訓練 . . . . 273
9.4.5 過擬合. . . . 275
9.4.6 反向傳播 . . . 276
9.5 神經語言模型 . . . . 281
9.5.1 基于前饋神經網絡的語言模型 . . . 281
9.5.2 對于長序列的建模 . . . . 284
9.5.3 單詞表示模型 . . . 286
9.5.4 句子表示模型 . . . 288
9.6 小結及拓展閱讀 . . . . 290
10 基于循環神經網絡的模型 . . . . 292
10.1 神經機器翻譯的發展簡史 . . . . 292
10.1.1 神經機器翻譯的起源 . . . 294
10.1.2 神經機器翻譯的品質 . . . 296
10.1.3 神經機器翻譯的優勢 . . . 298
10.2 編碼器-解碼器框架 . . . 300
10.2.1 框架結構 . . . . 300
10.2.2 表示學習 . . . . 301
10.2.3 簡單的運行實例 . . . 302
10.2.4 機器翻譯范式的對比 . . . 303
10.3 基于循環神經網絡的翻譯建模 . . . 304
10.3.1 建模 . . . . . 305
10.3.2 長短時記憶網絡 . . . 308
10.3.3 門控循環單元. . . . 310
10.3.4 雙向模型 . . . . 311
10.3.5 多層神經網絡. . . . 312
10.4 注意力機制 . . . 313
10.4.1 翻譯中的注意力機制 . . . 314
10.4.2 上下文向量的計算 . . . 315
10.4.3 注意力機制的解讀 . . . 318
10.4.4 實例:GNMT . . . 320
10.5 訓練及推斷 . . . 321
10.5.1 訓練 . . . . . 321
10.5.2 推斷 . . . . . 327
10.6 小結及拓展閱讀 . . . 331
11 基于卷積神經網絡的模型 . . . . 332
11.1 卷積神經網絡 . . . .332
11.1.1 卷積核與卷積操作 . . . 333
11.1.2 步長與填充 . . . . 335
11.1.3 池化 . . . . . 336
11.1.4 面向序列的卷積操作 . . . 337
11.2 基于卷積神經網絡的翻譯建模 . . . 339
11.2.1 位置編碼 . . . . 341
11.2.2 門控卷積神經網絡 . . . 341
11.2.3 殘差網絡 . . . . 343
11.2.4 多步注意力機制 . . . 344
11.2.5 訓練與推斷 . . . . 346
11.3 局部模型的改進 . . . 347
11.3.1 深度可分離卷積 . . . 347
11.3.2 輕量卷積和動態卷積 . . . 349
11.4 小結及拓展閱讀 . . . 351
12 基于自注意力的模型 . . . . 352
12.1 自注意力機制 . . . 352
12.2 Transformer 模型 . . . .354
12.2.1 Transformer 的優勢. . . 354
12.2.2 總體結構 . . . . 355
12.3 位置編碼 . . . . . .357
12.4 基于點乘的多頭注意力機制 . . . 359
12.4.1 點乘注意力機制 . . . 359
12.4.2 多頭注意力機制 . . . 362
12.4.3 掩碼操作 . . . . 363
12.5 殘差網絡和層標準化 . . . . 363
12.6 前饋全連接網絡子層 . . . . 365
12.7 訓練 . . . . 366
12.8 推斷 . . . . 368
12.9 小結及拓展閱讀 . . . 369
第 4 部分 機器翻譯前沿
13 神經機器翻譯模型訓練 . . . 371
13.1 開放詞表 . . . . 371
13.1.1 大詞表和未登錄詞問題. . . 372
13.1.2 子詞 . . . . . 372
13.1.3 雙字節編碼 . . . . 373
13.1.4 其他方法 . . . . 375
13.2 正則化 . . . . 376
13.2.1 L1/L2 正則化 . . . . 377
13.2.2 標簽平滑 . . . . 378
13.2.3 Dropout. . . .379
13.3 對抗樣本訓練 . . . 381
13.3.1 對抗樣本與對抗攻擊 . . . 382
13.3.2 基于黑盒攻擊的方法 . . . 383
13.3.3 基于白盒攻擊的方法 . . . 384
13.4 學習策略 . . . . . 385
13.4.1 極大似然估計的問題 . . . 385
13.4.2 非 Teacher-forcing 方法 . . . . 386
13.4.3 強化學習方法. . . . 388
13.5 知識蒸餾 . . . . . .392
13.5.1 什么是知識蒸餾 . . . 392
13.5.2 知識蒸餾的基本方法 . . . 393
13.5.3 機器翻譯中的知識蒸餾. . . 395
13.6 基于樣本價值的學習 . . . . 396
13.6.1 數據選擇 . . . . 396
13.6.2 課程學習 . . . . 399
13.6.3 持續學習 . . . . 401
13.7 小結及拓展閱讀 . . . 401
14 神經機器翻譯模型推斷 . . . 403
14.1 面臨的挑戰 . . . 403
14.2 基本問題 . . . . . 405
14.2.1 推斷方向 . . . . 405
14.2.2 譯文長度控制. . . . 406
14.2.3 搜索終止條件. . . . 408
14.2.4 譯文多樣性 . . . . 408
14.2.5 搜索錯誤 . . . . 409
14.3 輕量模型 . . . . . 410
14.3.1 輸出層的詞匯選擇 . . . 411
14.3.2 消除冗余計算. . . . 411
14.3.3 輕量解碼器及小模型 . . . 413
14.3.4 批量推斷 . . . . 414
14.3.5 低精度運算 . . . . 414
14.4 非自回歸翻譯 . . . 416
14.4.1 自回歸 vs 非自回歸 . . . . 416
14.4.2 非自回歸翻譯模型的結構 . . . . 417
14.4.3 更好的訓練目標 . . . 420
14.4.4 引入自回歸模塊 . . . 421
14.4.5 基于迭代精化的非自回歸翻譯模型 . . . 423
14.5 多模型集成 . . . 424
14.5.1 假設選擇 . . . . 424
14.5.2 局部預測融合. . . . 426
14.5.3 譯文重組 . . . . 427
14.6 小結與拓展閱讀 . . . 428
15 神經機器翻譯模型結構優化 . . . 430
15.1 注意力機制的改進 . . . 430
15.1.1 局部信息建模. . . . 430
15.1.2 多分支結構 . . . . 437
15.1.3 引入循環機制. . . . 439
15.1.4 高效的自注意力模型 . . . 440
15.2 神經網絡連接優化及深層模型 . . . 441
15.2.1 Post-Norm vs Pre-Norm . . . 442
15.2.2 高效信息傳遞. . . . 444
15.2.3 面向深層模型的參數初始化策略. . . .448
15.2.4 深層模型的訓練加速 . . . 451
15.2.5 深層模型的健壯性訓練. . . 454
15.3 基于句法的神經機器翻譯模型 . . . 456
15.3.1 在編碼器中使用句法信息 . . . . 456
15.3.2 在解碼器中使用句法信息 . . . . 461
15.4 基于結構搜索的翻譯模型優化 . . . 463
15.4.1 網絡結構搜索. . . . 464
15.4.2 網絡結構搜索的基本方法 . . . . 465
15.4.3 機器翻譯任務下的網絡結構搜索. . . .468
15.5 小結及拓展閱讀 . . . 470
16 低資源神經機器翻譯 . . . . 471
16.1 數據的有效使用 . . . 471
16.1.1 數據增強 . . . . 472
16.1.2 基于語言模型的方法 . . . 477
16.2 雙向翻譯模型 . . . 482
16.2.1 雙向訓練 . . . . 482
16.2.2 對偶學習 . . . . 483
16.3 多語言翻譯模型 . . . 486
16.3.1 基于樞軸語言的方法 . . . 486
16.3.2 基于知識蒸餾的方法 . . . 487
16.3.3 基于遷移學習的方法 . . . 488
16.4 無監督機器翻譯 . . . 491
16.4.1 無監督詞典歸納 . . . 491
16.4.2 無監督統計機器翻譯 . . . 494
16.4.3 無監督神經機器翻譯 . . . 495
16.5 領域適應 . . . . . .499
16.5.1 基于數據的方法 . . . 500
16.5.2 基于模型的方法 . . . 501
16.6 小結及拓展閱讀 . . . 503
17 多模態、多層次機器翻譯 . . . . 504
17.1 機器翻譯需要更多的上下文 . . . .504
17.2 語音翻譯 . . . . . .505
17.2.1 音頻處理 . . . . 505
17.2.2 級聯語音翻譯. . . . 507
17.2.3 端到端語音翻譯 . . . 508
17.3 圖像翻譯 . . . . . .513
17.3.1 基于圖像增強的文本翻譯 . . . . 514
17.3.2 圖像到文本的翻譯 . . . 516
17.3.3 圖像、文本到圖像的翻譯 . . . . 519
17.4 篇章級翻譯 . . . 519
17.4.1 篇章級翻譯的挑戰 . . . 519
17.4.2 篇章級翻譯的評價 . . . 520
17.4.3 篇章級翻譯的建模 . . . 521
17.4.4 在推斷階段結合篇章上下文 . . . . 525
17.5 小結及拓展閱讀 . . . 526
18 機器翻譯應用技術 . . . 528
18.1 機器翻譯的應用并不簡單 . . . . 528
18.2 增量式模型優化 . . . 529
18.3 交互式機器翻譯 . . . 530
18.4 翻譯結果的可干預性 . . . . 532
18.5 小設備機器翻譯 . . . 533
18.6 機器翻譯系統的部署 . . . . 534
18.7 機器翻譯的應用場景 . . . . 535
隨筆 . . . . . 538
后記 . . . . . 543
附錄 A . . . . . .545
A.1 統計機器翻譯開源系統 . . . 545
A.2 神經機器翻譯開源系統 . . . 546
附錄 B . . . . . .548
B.1 公開評測任務 . . . . 548
B.2 基準數據集 . . . . 550
B.3 平行語料 . . . . 551
附錄 C . . . . . 552
C.1 IBM 模型 2 的訓練方法 . . . . 552
C.2 IBM 模型 3 的訓練方法 . . . . 553
C.3 IBM 模型 4 的訓練方法 . . . . 555
C.4 IBM 模型 5 的訓練方法 . . . . 556
參考文獻 . . . . . 559
索引 . . . . . 618 |
序: |
|