機器翻譯:基礎與模型( 簡體 字) | |
作者:肖桐,朱靖波 | 類別:1. -> 程式設計 -> 綜合 |
出版社:電子工業出版社 | 3dWoo書號: 55238 詢問書籍請說出此書號! 有庫存 NT售價: 1495 元 |
出版日:9/1/2021 | |
頁數:648 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787121335198 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第 1 部分 機器翻譯基礎
1 機器翻譯簡介 . . . 2 1.1 機器翻譯的概念 . . . 2 1.2 機器翻譯簡史 . . . . . 4 1.2.1 人工翻譯. . . . 4 1.2.2 機器翻譯的萌芽 . . . 5 1.2.3 機器翻譯的受挫 . . . 6 1.2.4 機器翻譯的快速成長 . . . . 7 1.2.5 機器翻譯的爆發 . . . 8 1.3 機器翻譯現狀及挑戰 . . . . 9 1.4 基于規則的機器翻譯方法 . . . . 12 1.4.1 規則的定義 . . . . 12 1.4.2 轉換法. . . . . 13 1.4.3 基于中間語言的方法 . . . 15 1.4.4 基于規則的方法的優缺點. . . . .16 1.5 數據驅動的機器翻譯方法 . . . . 16 1.5.1 基于實例的機器翻譯 . . . 16 1.5.2 統計機器翻譯 . . . . 17 1.5.3 神經機器翻譯 . . . . 18 1.5.4 對比分析. . . . .19 1.6 推薦學習資源 . . . .20 1.6.1 經典書籍. . . . .20 1.6.2 相關學術會議 . . . . 21 2 統計語言建模基礎 . . . .24 2.1 概率論基礎 . . . . 24 2.1.1 隨機變量和概率. . . . 24 2.1.2 聯合概率、條件概率和邊緣概率. . . . 26 2.1.3 鏈式法則. . . . .27 2.1.4 貝葉斯法則 . . . . 28 2.1.5 KL 距離和熵 . . . 29 2.2 擲骰子游戲 . . . . . .31 2.3 n-gram 語言模型 . . . . .34 2.3.1 建模 . . . . . 35 2.3.2 參數估計和平滑算法 . . . 37 2.3.3 語言模型的評價. . . . 42 2.4 預測與搜索 . . . . . 43 2.4.1 搜索問題的建模. . . . 44 2.4.2 經典搜索. . . . .47 2.4.3 局部搜索. . . . .50 2.5 小結及拓展閱讀 . . . 52 3 詞法分析和語法分析基礎. . . . .54 3.1 問題概述 . . . . 54 3.2 中文分詞 . . . . 56 3.2.1 基于詞典的分詞方法 . . . 57 3.2.2 基于統計的分詞方法 . . . 58 3.3 命名實體識別 . . . 60 3.3.1 序列標注任務 . . . . 60 3.3.2 基于特征的統計學習 . . . 62 3.3.3 基于概率圖模型的方法 . . . 63 3.3.4 基于分類器的方法 . . . 69 3.4 句法分析 . . . . 71 3.4.1 句法樹. . . . . 71 3.4.2 上下文無關文法. . . . 73 3.4.3 規則和推導的概率 . . . 77 3.5 小結及拓展閱讀 . . . 79 4 翻譯質量評價 . . . .81 4.1 譯文質量評價面臨的挑戰 . . . . 81 4.2 人工評價 . . . . 84 4.2.1 評價策略. . . . .84 4.2.2 打分標準. . . . .85 4.3 有參考答案的自動評價 . . . . 86 4.3.1 基于詞串比對的評價方法. . . . .86 4.3.2 基于詞對齊的評價方法 . . . 89 4.3.3 基于檢測點的評價方法 . . . 93 4.3.4 多策略融合的評價方法 . . . 94 4.3.5 譯文多樣性 . . . . 94 4.3.6 相關性與顯著性. . . . 98 4.4 無參考答案的自動評價 . . . 101 4.4.1 質量評估任務 . . . 101 4.4.2 構建質量評估模型 . . . . 106 4.4.3 質量評估的應用場景 . . . . 107 4.5 小結及拓展閱讀 . . . . 108 第 2 部分 統計機器翻譯 5 基于詞的機器翻譯建模. . . . .111 5.1 詞在翻譯中的作用 . . . . 111 5.2 一個簡單實例 . . . . 113 5.2.1 翻譯的流程 . . . 113 5.2.2 統計機器翻譯的基本框架. . . .115 5.2.3 單詞級翻譯模型. . . 116 5.2.4 句子級翻譯模型. . . 119 5.2.5 解碼 . . . . 122 5.3 噪聲信道模型 . . . . 125 5.4 統計機器翻譯的 3 個基本問題 . . . . 127 5.4.1 詞對齊. . . . 128 5.4.2 基于詞對齊的翻譯模型. . . . 129 5.4.3 基于詞對齊的翻譯實例. . . . 130 5.5 IBM 模型 1 . . . . . 131 5.5.1 IBM 模型 1 的建模 . . . . 131 5.5.2 解碼及計算優化. . . . .133 5.5.3 訓練 . . . . 134 5.6 小結及拓展閱讀 . . . . 140 6 基于扭曲度和繁衍率的模型 . . . . 142 6.1 基于扭曲度的模型 . . . . 142 6.1.1 什么是扭曲度 . . . 142 6.1.2 IBM 模型 2 . . . 144 6.1.3 隱馬爾可夫模型. . . . .145 6.2 基于繁衍率的模型 . . . .146 6.2.1 什么是繁衍率 . . . 146 6.2.2 IBM 模型 3 . . . 149 6.2.3 IBM 模型 4 . . . 151 6.2.4 IBM 模型 5 . . . 152 6.3 解碼和訓練 . . . . 154 6.4 問題分析 . . . . .154 6.4.1 詞對齊及對稱化. . . . .154 6.4.2 “缺陷”問題 . . . 155 6.4.3 句子長度 . . . 156 6.4.4 其他問題 . . . 156 6.5 小結及拓展閱讀 . . . . 157 7 基于短語的模型. . . .158 7.1 翻譯中的短語信息 . . . . 158 7.1.1 詞的翻譯帶來的問題 . . . . 158 7.1.2 更大粒度的翻譯單元 . . . . 159 7.1.3 機器翻譯中的短語 . . . . 161 7.2 數學建模 . . . . . 164 7.2.1 基于翻譯推導的建模 . . . . 164 7.2.2 對數線性模型 . . . 166 7.2.3 判別模型中的特征 . . . . 167 7.2.4 搭建模型的基本流程 . . . . 167 7.3 短語抽取 . . . . . 168 7.3.1 與詞對齊一致的短語 . . . . 168 7.3.2 獲取詞對齊 . . . 169 7.3.3 度量雙語短語質量 . . . . 170 7.4 翻譯調序建模 . . . . 172 7.4.1 基于距離的調序. . . . .172 7.4.2 基于方向的調序. . . . .173 7.4.3 基于分類的調序. . . . .174 7.5 翻譯特征 . . . . . 175 7.6 最小錯誤率訓練 . . . . 175 7.7 棧解碼 . . . . . 179 7.7.1 翻譯候選匹配 . . . 180 7.7.2 翻譯假設擴展 . . . 181 7.7.3 剪枝 . . . . 181 7.7.4 解碼中的棧結構. . . . .183 7.8 小結及拓展閱讀 . . . . 184 8 基于句法的模型 . . . 186 8.1 翻譯中句法信息的使用 . . . 186 8.2 基于層次短語的模型 . . . 188 8.2.1 同步上下文無關文法 . . . . 190 8.2.2 層次短語規則抽取 . . . . 194 8.2.3 翻譯特征 . . . 196 8.2.4 CKY 解碼 . . . . 197 8.2.5 立方剪枝 . . . 200 8.3 基于語言學句法的模型 . . . 203 8.3.1 基于句法的翻譯模型分類 . . . 205 8.3.2 基于樹結構的文法 . . . . 206 8.3.3 樹到串翻譯規則抽取 . . . . 212 8.3.4 樹到樹翻譯規則抽取 . . . . 220 8.3.5 句法翻譯模型的特征 . . . . 223 8.3.6 基于超圖的推導空間表示 . . . 224 8.3.7 基于樹的解碼 vs 基于串的解碼 . . . . 227 8.4 小結及拓展閱讀 . . . . 231 第 3 部分 神經機器翻譯 9 神經網絡和神經語言建模 . . . 234 9.1 深度學習與神經網絡 . . . .234 9.1.1 發展簡史 . . . 235 9.1.2 為什么需要深度學習 . . . . 237 9.2 神經網絡基礎 . . . . 239 9.2.1 線性代數基礎 . . . 239 9.2.2 神經元和感知機. . . . .244 9.2.3 多層神經網絡 . . . 248 9.2.4 函數擬合能力 . . . 252 9.3 神經網絡的張量實現 . . . 256 9.3.1 張量及其計算 . . . 256 9.3.2 張量的物理存儲形式 . . . . 259 9.3.3 張量的實現手段. . . . .259 9.3.4 前向傳播與計算圖 . . . . 260 9.4 神經網絡的參數訓練 . . . 262 9.4.1 損失函數 . . . 262 9.4.2 基于梯度的參數優化 . . . . 264 9.4.3 參數更新的并行化策略. . . . 272 9.4.4 梯度消失、梯度爆炸和穩定性訓練 . . . . 273 9.4.5 過擬合. . . . 275 9.4.6 反向傳播 . . . 276 9.5 神經語言模型 . . . . 281 9.5.1 基于前饋神經網絡的語言模型 . . . 281 9.5.2 對于長序列的建模 . . . . 284 9.5.3 單詞表示模型 . . . 286 9.5.4 句子表示模型 . . . 288 9.6 小結及拓展閱讀 . . . . 290 10 基于循環神經網絡的模型 . . . . 292 10.1 神經機器翻譯的發展簡史 . . . . 292 10.1.1 神經機器翻譯的起源 . . . 294 10.1.2 神經機器翻譯的品質 . . . 296 10.1.3 神經機器翻譯的優勢 . . . 298 10.2 編碼器-解碼器框架 . . . 300 10.2.1 框架結構 . . . . 300 10.2.2 表示學習 . . . . 301 10.2.3 簡單的運行實例 . . . 302 10.2.4 機器翻譯范式的對比 . . . 303 10.3 基于循環神經網絡的翻譯建模 . . . 304 10.3.1 建模 . . . . . 305 10.3.2 長短時記憶網絡 . . . 308 10.3.3 門控循環單元. . . . 310 10.3.4 雙向模型 . . . . 311 10.3.5 多層神經網絡. . . . 312 10.4 注意力機制 . . . 313 10.4.1 翻譯中的注意力機制 . . . 314 10.4.2 上下文向量的計算 . . . 315 10.4.3 注意力機制的解讀 . . . 318 10.4.4 實例:GNMT . . . 320 10.5 訓練及推斷 . . . 321 10.5.1 訓練 . . . . . 321 10.5.2 推斷 . . . . . 327 10.6 小結及拓展閱讀 . . . 331 11 基于卷積神經網絡的模型 . . . . 332 11.1 卷積神經網絡 . . . .332 11.1.1 卷積核與卷積操作 . . . 333 11.1.2 步長與填充 . . . . 335 11.1.3 池化 . . . . . 336 11.1.4 面向序列的卷積操作 . . . 337 11.2 基于卷積神經網絡的翻譯建模 . . . 339 11.2.1 位置編碼 . . . . 341 11.2.2 門控卷積神經網絡 . . . 341 11.2.3 殘差網絡 . . . . 343 11.2.4 多步注意力機制 . . . 344 11.2.5 訓練與推斷 . . . . 346 11.3 局部模型的改進 . . . 347 11.3.1 深度可分離卷積 . . . 347 11.3.2 輕量卷積和動態卷積 . . . 349 11.4 小結及拓展閱讀 . . . 351 12 基于自注意力的模型 . . . . 352 12.1 自注意力機制 . . . 352 12.2 Transformer 模型 . . . .354 12.2.1 Transformer 的優勢. . . 354 12.2.2 總體結構 . . . . 355 12.3 位置編碼 . . . . . .357 12.4 基于點乘的多頭注意力機制 . . . 359 12.4.1 點乘注意力機制 . . . 359 12.4.2 多頭注意力機制 . . . 362 12.4.3 掩碼操作 . . . . 363 12.5 殘差網絡和層標準化 . . . . 363 12.6 前饋全連接網絡子層 . . . . 365 12.7 訓練 . . . . 366 12.8 推斷 . . . . 368 12.9 小結及拓展閱讀 . . . 369 第 4 部分 機器翻譯前沿 13 神經機器翻譯模型訓練 . . . 371 13.1 開放詞表 . . . . 371 13.1.1 大詞表和未登錄詞問題. . . 372 13.1.2 子詞 . . . . . 372 13.1.3 雙字節編碼 . . . . 373 13.1.4 其他方法 . . . . 375 13.2 正則化 . . . . 376 13.2.1 L1/L2 正則化 . . . . 377 13.2.2 標簽平滑 . . . . 378 13.2.3 Dropout. . . .379 13.3 對抗樣本訓練 . . . 381 13.3.1 對抗樣本與對抗攻擊 . . . 382 13.3.2 基于黑盒攻擊的方法 . . . 383 13.3.3 基于白盒攻擊的方法 . . . 384 13.4 學習策略 . . . . . 385 13.4.1 極大似然估計的問題 . . . 385 13.4.2 非 Teacher-forcing 方法 . . . . 386 13.4.3 強化學習方法. . . . 388 13.5 知識蒸餾 . . . . . .392 13.5.1 什么是知識蒸餾 . . . 392 13.5.2 知識蒸餾的基本方法 . . . 393 13.5.3 機器翻譯中的知識蒸餾. . . 395 13.6 基于樣本價值的學習 . . . . 396 13.6.1 數據選擇 . . . . 396 13.6.2 課程學習 . . . . 399 13.6.3 持續學習 . . . . 401 13.7 小結及拓展閱讀 . . . 401 14 神經機器翻譯模型推斷 . . . 403 14.1 面臨的挑戰 . . . 403 14.2 基本問題 . . . . . 405 14.2.1 推斷方向 . . . . 405 14.2.2 譯文長度控制. . . . 406 14.2.3 搜索終止條件. . . . 408 14.2.4 譯文多樣性 . . . . 408 14.2.5 搜索錯誤 . . . . 409 14.3 輕量模型 . . . . . 410 14.3.1 輸出層的詞匯選擇 . . . 411 14.3.2 消除冗余計算. . . . 411 14.3.3 輕量解碼器及小模型 . . . 413 14.3.4 批量推斷 . . . . 414 14.3.5 低精度運算 . . . . 414 14.4 非自回歸翻譯 . . . 416 14.4.1 自回歸 vs 非自回歸 . . . . 416 14.4.2 非自回歸翻譯模型的結構 . . . . 417 14.4.3 更好的訓練目標 . . . 420 14.4.4 引入自回歸模塊 . . . 421 14.4.5 基于迭代精化的非自回歸翻譯模型 . . . 423 14.5 多模型集成 . . . 424 14.5.1 假設選擇 . . . . 424 14.5.2 局部預測融合. . . . 426 14.5.3 譯文重組 . . . . 427 14.6 小結與拓展閱讀 . . . 428 15 神經機器翻譯模型結構優化 . . . 430 15.1 注意力機制的改進 . . . 430 15.1.1 局部信息建模. . . . 430 15.1.2 多分支結構 . . . . 437 15.1.3 引入循環機制. . . . 439 15.1.4 高效的自注意力模型 . . . 440 15.2 神經網絡連接優化及深層模型 . . . 441 15.2.1 Post-Norm vs Pre-Norm . . . 442 15.2.2 高效信息傳遞. . . . 444 15.2.3 面向深層模型的參數初始化策略. . . .448 15.2.4 深層模型的訓練加速 . . . 451 15.2.5 深層模型的健壯性訓練. . . 454 15.3 基于句法的神經機器翻譯模型 . . . 456 15.3.1 在編碼器中使用句法信息 . . . . 456 15.3.2 在解碼器中使用句法信息 . . . . 461 15.4 基于結構搜索的翻譯模型優化 . . . 463 15.4.1 網絡結構搜索. . . . 464 15.4.2 網絡結構搜索的基本方法 . . . . 465 15.4.3 機器翻譯任務下的網絡結構搜索. . . .468 15.5 小結及拓展閱讀 . . . 470 16 低資源神經機器翻譯 . . . . 471 16.1 數據的有效使用 . . . 471 16.1.1 數據增強 . . . . 472 16.1.2 基于語言模型的方法 . . . 477 16.2 雙向翻譯模型 . . . 482 16.2.1 雙向訓練 . . . . 482 16.2.2 對偶學習 . . . . 483 16.3 多語言翻譯模型 . . . 486 16.3.1 基于樞軸語言的方法 . . . 486 16.3.2 基于知識蒸餾的方法 . . . 487 16.3.3 基于遷移學習的方法 . . . 488 16.4 無監督機器翻譯 . . . 491 16.4.1 無監督詞典歸納 . . . 491 16.4.2 無監督統計機器翻譯 . . . 494 16.4.3 無監督神經機器翻譯 . . . 495 16.5 領域適應 . . . . . .499 16.5.1 基于數據的方法 . . . 500 16.5.2 基于模型的方法 . . . 501 16.6 小結及拓展閱讀 . . . 503 17 多模態、多層次機器翻譯 . . . . 504 17.1 機器翻譯需要更多的上下文 . . . .504 17.2 語音翻譯 . . . . . .505 17.2.1 音頻處理 . . . . 505 17.2.2 級聯語音翻譯. . . . 507 17.2.3 端到端語音翻譯 . . . 508 17.3 圖像翻譯 . . . . . .513 17.3.1 基于圖像增強的文本翻譯 . . . . 514 17.3.2 圖像到文本的翻譯 . . . 516 17.3.3 圖像、文本到圖像的翻譯 . . . . 519 17.4 篇章級翻譯 . . . 519 17.4.1 篇章級翻譯的挑戰 . . . 519 17.4.2 篇章級翻譯的評價 . . . 520 17.4.3 篇章級翻譯的建模 . . . 521 17.4.4 在推斷階段結合篇章上下文 . . . . 525 17.5 小結及拓展閱讀 . . . 526 18 機器翻譯應用技術 . . . 528 18.1 機器翻譯的應用并不簡單 . . . . 528 18.2 增量式模型優化 . . . 529 18.3 交互式機器翻譯 . . . 530 18.4 翻譯結果的可干預性 . . . . 532 18.5 小設備機器翻譯 . . . 533 18.6 機器翻譯系統的部署 . . . . 534 18.7 機器翻譯的應用場景 . . . . 535 隨筆 . . . . . 538 后記 . . . . . 543 附錄 A . . . . . .545 A.1 統計機器翻譯開源系統 . . . 545 A.2 神經機器翻譯開源系統 . . . 546 附錄 B . . . . . .548 B.1 公開評測任務 . . . . 548 B.2 基準數據集 . . . . 550 B.3 平行語料 . . . . 551 附錄 C . . . . . 552 C.1 IBM 模型 2 的訓練方法 . . . . 552 C.2 IBM 模型 3 的訓練方法 . . . . 553 C.3 IBM 模型 4 的訓練方法 . . . . 555 C.4 IBM 模型 5 的訓練方法 . . . . 556 參考文獻 . . . . . 559 索引 . . . . . 618 利用機器翻譯技術實現不同語言之間的自由交流始終是最令人期待的計算機應用之一。本書全面回顧了近30年來機器翻譯的技術發展歷程,遵循機器翻譯技術的發展脈絡,對基于統計和基于端到端深度學習的機器翻譯關鍵技術及原理進行了深入講解,力求做到簡潔明了、全面透徹、圖文結合。此外,本書著重介紹了近年來機器翻譯領域的科研熱點及其結果,旨在幫助讀者全面了解機器翻譯的前沿研究進展和關鍵技術。本書可供計算機相關專業高年級本科生及研究生學習使用,也可作為自然語言處理,特別是機器翻譯相關研究人員的案邊手冊。
本書特色
本書全面回顧了近 30 年機器翻譯技術的發展歷程,并圍繞機器翻譯的建模和深度學習方法這兩個主題對機器翻譯的技術方法進行了全面介紹。在寫作中,筆者力求用樸實的語言和簡潔的實例闡述機器翻譯的基本模型,同時對相關的技術前沿進行討論。其中涉及大量的實踐經驗,包括許多機器翻譯系統開發的細節。從這個角度看,本書不僅是一本理論書,還結合了機器翻譯的應用,給讀者提供了很多機器翻譯技術落地的思路。 本書可供計算機相關專業高年級本科生及研究生學習之用,也可作為自然語言處理領域,特別是機器翻譯方向相關研究人員的參考資料。此外,本書各章主題明確,內容緊湊。因此,讀者可將每章作為某一專題的學習資料。 用最簡單的方式闡述機器翻譯的基本思想是筆者期望達到的目標。雖然書中不可避免地使用了一些形式化的定義和算法的抽象描述,但筆者也盡所能地通過圖例對其進行了解釋(本書共 395 張插圖)。本書所包含的內容較為廣泛,難免會有疏漏,望讀者海涵,并指出不當之處。 |