預訓練語言模型( 簡體 字) | |
作者:邵浩,劉一烽 | 類別:1. -> 程式設計 -> 自然語言 |
出版社:電子工業出版社 | 3dWoo書號: 54485 詢問書籍請說出此書號! 有庫存 NT售價: 545 元 |
出版日:5/1/2021 | |
頁數:216 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787121409998 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第 1 章 預訓練語言模型簡介 1
1.1自然語言處理研究進展 1 1.2預訓練語言模型:為什么要預訓練 4 1.2.1預訓練 4 1.2.2自然語言表示 5 1.2.3預訓練語言模型發展史及分類 8 第 2 章 預訓練語言模型基礎知識 13 2.1統計語言模型 14 2.2神經網絡語言模型 17 2.3詞向量:解決相似單詞的距離問題 19 2.4RNN 和 LSTM 基礎 25 2.5基于 RNN 的語言模型 29 2.6ELMo:解決多義詞的表示問題 32 第 3 章 Transformer 與 Attention 37 3.1Transformer 的結構 37 3.2Self-Attention:從全局中找到重點 43 3.3位置編碼:為什么有效 54 3.4單向掩碼:另一種掩碼機制 58 3.5代碼解讀:模型訓練技巧 61 3.5.1訓練技巧 1:歸一化層前置 62 3.5.2訓練技巧 2:梯度累積 64 第 4 章 GPT 系列模型 69 4.1GPT 的結構:基于 Transformer Decoder 69 4.2GPT 任務改寫:如何在不同任務中使用 GPT 71 4.3GPT 核心代碼解讀 74 4.4GPT-2:Zero-shot Learning 的潛力 79 4.4.1N-shot Learning 79 4.4.2核心思想 80 4.4.3模型結構 81 4.5GPT-3:Few-shot Learning 的優秀表現 82 4.5.1看詞造句 84 4.5.2語法糾錯 84 4.5.3GPT-3 的爭議 85 第 5 章 BERT 模型 87 5.1BERT:公認的里程碑 87 5.2BERT 的結構:強大的特征提取能力 88 5.3無監督訓練:掩碼語言模型和下句預測 91 5.3.1MLM 91 5.3.2NSP 93 5.3.3輸入表示 94 5.4微調訓練:適應下游任務 95 5.4.1句對分類 95 5.4.2單句分類 96 5.4.3文本問答 97 5.4.4單句標注 99 5.5核心代碼解讀:預訓練和微調 100 5.5.1BERT 預訓練模型 101 5.5.2BERT 微調模型 110 5.6BERT 總結 117 第 6 章 后 BERT 時代的模型 119 6.1XLM:跨語言模型 119 6.1.1優化方向 119 6.1.2算法細節 120 6.1.3 小結 121 6.2MT-DNN:多任務融合 121 6.2.1優化方向 121 6.2.2算法細節 122 6.2.3 小結 124 6.3UniLM:獲得文本生成能力 124 6.3.1優化方向 124 6.3.2算法細節 125 6.3.3 小結 127 6.4SpanBERT:擴大掩碼范圍 127 6.4.1優化方向 127 6.4.2算法細節 128 6.4.3 小結 129 6.5XLNet:置換自回歸 130 6.5.1優化方向 130 6.5.2算法細節 130 6.5.3 小結 135 6.6ERNIE:知識圖譜 136 6.6.1優化方向 136 6.6.2算法細節 136 6.6.3 小結 139 6.7VideoBERT:多模態融合 139 6.7.1優化方向 139 6.7.2算法細節 140 6.7.3 小結 141 6.8ALBERT:參數共享 142 6.8.1優化方向 142 6.8.2算法細節 143 6.8.3 小結 145 6.9RoBERTa:更大的模型 145 6.9.1優化方向 145 6.9.2算法細節 146 6.9.3 小結 146 6.10BART:編解碼結構 146 6.10.1優化方向 146 6.10.2算法細節 147 6.10.3 小結 149 6.11T5:大一統模型 149 6.11.1優化方向 149 6.11.2算法細節 150 6.11.3 小結 153 6.12 總結 154 第 7 章 評測和應用 157 7.1評測任務 157 7.1.1通用評測任務 157 7.1.2領域評測任務 162 7.1.3其他評測任務 167 7.2模型應用:Transformers 代碼實戰 168 7.2.1 安裝 168 7.2.2快速上手指南 170 7.2.3微調訓練 172 7.2.4BERT 應用 175 7.3模型壓縮:量化、剪枝和蒸餾 179 7.3.1BERT 模型分析 179 7.3.2 量化 181 7.3.3 剪枝 181 7.3.4 蒸餾 182 7.3.5 結構無損壓縮 187 7.4模型擴展:多模態預訓練 188 7.4.1單流模型 189 7.4.2雙流模型 191 第 8 章 總結和展望 195 8.1預訓練語言模型的發展現狀 195 8.2預訓練語言模型的未來展望 199 參考文獻 203 預訓練語言模型屬于人工智能領域中自然語言處理領域的一個細分。 本書主要介紹預訓練語言模型。預訓練語言模型是自然語言處理領域的重要突破,得到了越來越廣泛的關注,相關研究者和從業人員在實際應用的過程中,亟需一本理論翔實、代碼細節充分的參考書。本書詳細梳理了預訓練語言模型的基本概念和理論基礎,并通過實際代碼的講解, 闡述了具有代表性的預訓練語言模型的實現細節,非常適合需要快速、全面掌握預訓練語言模型的從業者閱讀。
緣起
隨著預訓練語言模型被提出,自然語言處理領域有了突飛猛進的發展。通過在大規模文本中訓練通用的語言表示,并用微調的方法進行下游任務 的領域適應,絕大多數自然語言處理任務都可以用這種范式取得良好的效 果。近年,各種預訓練語言模型如雨后春筍般涌現,突破了一個又一個SOTA 表現。 正是在這種背景下,無論是自然語言處理領域的研究者還是從業人員, 對一本全面翔實的參考書籍的需求愈發凸顯。應電子工業出版社鄭柳潔編 輯的邀請,我們開始撰寫本書,一個很樸素的出發點就是在我們的能力范 圍之內,對現有的預訓練語言模型進行一次詳細的梳理,讓感興趣的讀者 能夠大致了解預訓練語言模型的起源發展、理論原理和代碼細節。 本書內容 預訓練語言模型數量眾多,本書不僅介紹了具有里程碑意義的典型模型,如 ELMo、BERT 和 GPT,也挑選了一些具有代表性的新模型,如ALBERT、BART 和 T5 等。在寫作上,不僅有模型框架的介紹、數學公式的推導,還配合了詳細的代碼講解和應用實例,希望可以幫助讀者快速理解預訓練語言模型的相關知識。 本書共 8 章,第 1 章給出了預訓練語言模型的簡介,包括自然語言處理的研究進展及預訓練語言模型的發展史和分類。第 2 章介紹了預訓練語言模型的基礎知識,從統計語言模型到神經網絡語言模型,并重點介紹了具有里程碑意義的 ELMo。第 3 章對 Transformer 和 Attention(注意力)進行了詳細闡述。第 4 章和第 5 章分別介紹了 GPT 系列模型和 BERT 模型。第 6 章介紹了后 BERT 時代的典型模型。第 7 章給出了預訓練語言模型的評測和應用。第 8 章給出了總結和展望。 預訓練語言模型的發展方興未艾,充滿了挑戰,推動其理論和技術的發展,需要各位同仁一起努力。希望本書能夠給讀者帶來有價值的參考。 |