大模型時代的基礎架構：大模型算力中心建設指南 @ 3dWoo大學簡體電腦書店

大模型時代的基礎架構：大模型算力中心建設指南 ( 簡體字)
作者：方天戟	類別：1. -> 程式設計 C78
出版社：電子工業出版社	3dWoo書號： 56434 詢問書籍請說出此書號！缺書 NT售價： 640 元
出版日：7/1/2024
頁數：240
光碟數：0
站長推薦：
印刷：黑白印刷	語系： ( 簡體字 )
ISBN：9787121481239	【不接受訂購】
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
目錄前言內容簡介第1章 AI與大模型時代對基礎架構的需求 1.1 我們在談論AI時，到底在談論什么 1.2 機器學習算法初窺 1.3 一元線性回歸算法剖析 1.4 機器學習算法對計算機硬件的特殊需求 1.4.1 機器學習算法的核心運算特征 1.4.2 使用CPU實現機器學習算法和并行加速 1.4.3 機器學習算法的主力引擎——GPU 1.4.4 機器學習算法的新引擎——TPU和NPU 1.5 本章小結第2章軟件程序與專用硬件的結合 2.1 GPU并行運算庫 2.2 機器學習程序的開發框架 2.3 分布式AI訓練 2.4 本章小結第3章 GPU硬件架構剖析 3.1 GPU的總體設計 3.2 Nvidia GH100芯片架構剖析 3.3 其他Hopper架構的GPU 3.4 本章小結第4章 GPU服務器的設計與實現 4.1 初識Nvidia DGX 4.2 Nvidia DGX A100的總體設計 4.3 Nvidia DGX A100 CPU與內存子系統的設計 4.4 Nvidia DGX A100 PCI-E子系統的設計 4.5 Nvidia DGX A100 NVLink子系統的設計 4.6 其他輔助子系統的設計 4.7 本章小結第5章機器學習所依托的I/O框架體系 5.1 Magnum IO的需求來源 5.2 Magnum IO的核心組件 5.3 服務器內部的GPU互通 5.4 跨服務器節點的GPU通信 5.5 RDMA的兩種實現 5.6 GPU對存儲的訪問 5.7 Magnum IO所依賴的其他支撐技術 5.7.1 DPDK（ Data Plane Development Kit，數據平面開發套件） 5.7.2 DPU（Data Processing Unit，數據處理器） 5.7.3 MPI Tag Matching 5.8 本章小結第6章 GPU集群的網絡設計與實現 6.1 GPU集群中RoCE計算網絡的設計與實現 6.2 GPU集群中存儲與業務網絡的設計與實現 6.3 GPU集群中帶外管理監控網絡的設計與實現 6.4 GPU集群中網絡邊界的設計與實現 6.5 本章小結第7章 GPU板卡級算力調度技術 7.1 基于虛擬化技術的GPU調度 7.2 基于容器技術的GPU調度 7.3 本章小結第8章 GPU虛擬化調度方案 8.1 Nvidia的GPU虛擬化調度方案 8.1.1 API Remoting與vCUDA 8.1.2 GRID vGPU 8.1.3 Nvidia MIG 8.2 其他硬件廠商的GPU虛擬化調度方案 8.2.1 AMD的SRIOV方案 8.2.2 Intel的GVT-G方案 8.3 云廠商與開源社區基于容器的GPU虛擬化調度方案 8.3.1 TKE vCUDA+GPU Manager 8.3.2 阿里云的cGPU 8.3.3 騰訊云的qGPU 8.4 本章小結第9章 GPU集群的網絡虛擬化設計與實現 9.1 基于SDN的VPC技術：網絡虛擬化技術的基石 9.2 云負載均衡：機器學習網絡的中流砥柱 9.3 專線接入、對等連接與VPC網關 9.4 SDN NFV網關的實現與部署 9.4.1 基于virtio-net/vhost的虛擬機部署NFV 9.4.2 基于SRIOV的虛擬機部署NFV 9.4.3 使用DPDK技術對NFV加速 9.5 本章小結第10章 GPU集群的存儲設計與實現 10.1 程序與系統存儲——分布式塊存儲 10.1.1 塊存儲的業務需求 10.1.2 集中式塊存儲與分布式塊存儲 10.1.3 分布式塊存儲的故障恢復 10.1.4 分布式塊存儲的性能優化 10.1.5 分布式塊存儲的快照與回滾 10.2 海量非結構化數據存儲——分布式對象存儲 10.2.1 入門級對象存儲的首選：Ceph 10.2.2 開源海量對象存儲：Swift 10.2.3 商業化對象存儲：大型公有云對象存儲私有化 10.2.4 未來之星：Minio 10.3 AI訓練素材存儲——分布式并發高性能存儲 10.3.1 開源大數據存儲鼻祖：HDFS 10.3.2 業界對HDFS的改進 10.3.3 長青松柏：Lustre 10.4 本章小結第11章機器學習應用開發與運行平臺的設計與實現 11.1 微服務平臺 11.1.1 Kubernetes：微服務基礎能力平臺 11.1.2 Spring Cloud：Java系專屬微服務平臺 11.1.3 Istio：不挑開發語言，只挑部署架構 11.1.4 商業化微服務平臺：兼顧各類需求的選擇 11.2 中間件服務 11.2.1 消息中間件 11.2.2 緩存中間件 11.2.3 數據庫（數據中間件） 11.3 應用日志服務 11.4 本章小結第12章基于云平臺的GPU集群的管理與運營 12.1 云運維平臺 12.1.1 硬件基礎設施管理 12.1.2 系統監控與告警平臺 12.1.3 CMDB 12.2 云運營平臺 12.3 云審計平臺 12.4 本章小結第13章服務機器學習的GPU計算平臺落地案例 13.1 需求來源：自動駕駛模型訓練 13.2 總體設計——基于云原生的高性能計算 13.3 計算需求分析與設計實現 13.4 存儲需求分析與設計實現 13.5 網絡需求分析與設計實現 13.6 本章小結后記大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎，是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入講解，并基于TOGAF方法論，剖析業界知名案例的設計方案。全書總計13章。第1章講解AI與大模型時代對基礎架構的需求；第2章講解軟件程序與專用硬件的結合，涉及GPU并行運算庫、機器學習程序的開發框架和分布式AI訓練；第3章剖析GPU的硬件架構，涉及GPU的總體設計、Nvidia GH100芯片架構和擁有其他Hopper架構的GPU；第4章講解GPU服務器的設計與實現；第5章講解機器學習所依托的I/O框架體系；第6章講解GPU集群的網絡設計與實現；第7章講解GPU板卡算力調度技術；第8章講解GPU虛擬化調度方案；第9章講解GPU集群的網絡虛擬化設計與實現；第10章講解GPU集群的存儲設計與實現；第11章講解如何基于云原生技術為機器學習應用設計與實現更好的開發和運行平臺；第12章講解基于云平臺的GPU集群的管理與運營，涉及云運維平臺、云運營平臺和云審計平臺；第13章基于一個服務機器學習的GPU計算平臺落地案例，展示如何針對機器學習應用進行需求分析、設計與實現。無論是高等院校計算機與人工智能等相關專業的本科生或研究生，還是對并行計算技術、云計算技術、高性能存儲及高性能網絡技術感興趣的研究人員或工程技術人員，都可以參考和閱讀本書。推薦序一蒙作者不棄，邀我為其大作寫推薦序。我雖然也算是電子信息行業的從業者，但既非行業大咖，又非專業技術大佬，更不從事大模型建設這么具體、高深的工作，哪有資格寫推薦序呢？大感為難。但在認真讀了本書之后，我深有感觸，愿意從資深讀者的角度，分享一點兒心得，向大家推薦本書。讀本書，可以從知識、方法、審美這三個不同的角度入手。而這三個角度，正如萬花筒上的三塊玻璃，組合起來輕輕一轉，就會呈現花團錦簇的大千世界。首先，說說知識。我們最廣大的讀者，多半只是人工智能的使用者，沒有機會建造大模型。但那就可以偷懶，把它當作一個黑箱，閉著眼睛接受它輸出的結果嗎？當然不可以。如今的社會是一個技術性的社會。如果對其主要的技術工具知其然而不知其所以然，就會在它的各種升級換代場景中疲于奔命，卻不知自己為啥總是被動應對，不趕趟。只有主動去理解這些技術工具所涉及的根本邏輯和特點，才有可能主動預見其發展和應用場景，提前做好準備。也就是說，與其偷懶而天天被人工智能的各個新版本“拖著走”，不如花點兒時間好好讀讀本書，理解大模型的邏輯，也許還有機會“領著”人工智能“走”呢！雖說知識就是力量，但也還得先下手為強，不是嗎？以上是從個人的角度講，我們需要好好讀讀本書，獲取相關知識。從人工智能發展的角度講，我們也需要更多地理解人工智能的基礎知識和基本邏輯。縱觀人類的發展史，科學和技術但凡被轉化為產業，造福大眾，就必然需要去神秘化、通俗化：理解的人越多，使用的人越多，發展就越快，越普及。把一項技術說得高深無比，讓大眾望而生畏，最終只會讓它成為象牙塔中的玩物，因不接地氣而消失。所以，在本書中，作者耗費大量心血，把大模型的核心架構用通俗易懂的方式講給普羅大眾，就是為了讓更多的并不從事大模型建設工作的人理解這些內容，從而讓大模型建設工作得到更多人的支持，讓其產業落地，開花結果。如果對該進程有幫助，那就是作者寫本書的功德。本書寫得簡單明了。但簡單并不意味著不深刻，復雜也并不意味著高明。“簡明”才是作者功力和理解深度的體現。然后，說說方法。我們絕大多數人并不會去做大模型，甚至并不在電子信息行業工作。那讀一本關于大模型建設的專著有什么用呢？學思路！點石成金！我們要的不是那塊金子，而是那根手指！本書好就好在重點突出，講解思路清晰：在大模型建設工作中要實現哪些目標？會遇到哪些困難？要克服或繞過這些困難，應該采用什么方法？本書條分縷析、引人入勝，給人以山陰道中移步換景的感覺。科普作品的理想讀者，是其他專業的開拓者。互鑒互學，融合增長。放開眼光，看其他專業的高手做事，提升自己，是高手們百尺竿頭更進一步的訣竅。所以，不做大模型的人也可以認真讀一讀本書，說不定會有意外之喜。最后，說說審美。本書寫得確實好，這也許與其作者是軟件高手有關。軟件的著作權歸屬于其作者，所以碼農們其實都是作者。而作者要寫鴻篇巨著，那非得把架構做好不可。我們作為沒受過寫作訓練的普通讀者，往往驚嘆于書籍跌宕起伏的故事情節，卻不去注意書籍內容結構的精美和巧妙。畢竟看書的人雖多，又有幾個人會因此去學習如何構思一本好書呢？但本書不一樣，它幾乎通篇都在介紹怎樣做架構，并圍繞一個高遠的目標，講了如何思考、如何構建、功能如何相互照應。看了本書，我們大概可以理解一些軟件的結構之美。同時，本書自身的內容架構就很精美，可供我們欣賞和借鑒。總之，無論我們是否在做大模型或在電子信息行業工作，本書都值得一讀。也期待作者能夠更上一層樓，寫出更多、更好的著作。中國電子企業協會副會長宿東君推薦序二隨著2006年AWS發布S3和EC2，云計算的商業大幕正式開啟，IT世界進入云計算時代。2015年，AWS首次推出Amazon Machine Learning服務，這標志著機器學習和人工智能服務成為云計算領域的生力軍。2022年11月，ChatGPT橫空出世，因其卓越的能力，被稱為有史以來向公眾發布的最佳人工智能聊天機器人。ChatGPT在短時間內席卷全球，讓“GPT”“大模型”這些詞匯變得耳熟能詳。ChatGPT的出現，不僅讓AI領域翻開了新的篇章，還大大推動了云計算領域的發展。 ChatGPT優異能力的背后，大模型技術是關鍵。人們相信，以ChatGPT為代表的大模型技術開啟的本輪科技浪潮，其重要性將超過以往任何一次AI技術突破。國內產投研各方均已加快布局大模型。百度的文心一言、阿里巴巴的通義千問、華為的盤古、京東的言犀、騰訊的混元、商湯的日日新等大模型先后登場。據不完全統計，目前，我國已推出的通用大模型有一百多個，若算上各類行業大模型，更達數千個。于是，人們用“千模大戰”來形容目前的產業態勢。大模型作為政府和企業推進人工智能產業發展的重要抓手，在識別、理解、決策、生成等AI任務的泛化性、通用性、遷移性方面都展現了顯著優勢和巨大潛力。IDC建議，大模型在推進產業智能化升級的過程中已展現巨大的潛力，企業應該盡早關注。與此同時，行業專家普遍認為，公有云上的大模型服務對于大中型企業來說有幾個短板，比如：大模型是“通才”，行業深度不夠；可能存在數據安全隱患；企業內部數據更新速度快，公有大模型無法及時更新數據；無法實現成本可控。對于擁有敏感且高價值數據的大中型企業來說，大模型的行業化、企業化、垂直化、小型化、專有化變得尤為關鍵。相信在不久的將來，有關大模型的基礎架構將成為大中型企業云計算基礎設施的一個關鍵組成部分。但是，對于企業來說，與以計算、存儲、網絡、數據庫等中間件為代表的傳統云計算服務相比，該基礎架構的落地和使用面臨諸多挑戰，比如：大模型和軟硬件不好選擇；在大模型的基礎設施建設和維護方面，技術門檻高、人才儲備不足；等等。本書的出現恰逢其時：目前，大中型企業正處于在其數據中心內建設大模型基礎設施的關鍵階段，本書可為其提供指導。本書不但講解了大模型相關的基礎技術，比如AI基本概念、GPU硬件、軟件、虛擬化等，還講解了大模型基礎設施的核心內容，包括GPU集群存儲、網絡、I/O、算力調度、網絡虛擬化、管理和運營等，并結合實際案例，講解了如何進行機器學習應用開發與運行平臺設計，在此過程中把本書中的重點內容“串聯”起來進行了講解，以期讀者建立整體的認知。正如作者的名字一樣，希望本書能成為助力國內大模型基礎設施建設的“方天畫戟”。也希望讀者喜歡本書，能在閱讀本書后有真正的收獲。還希望國內的大模型發展得越來越好！騰訊云TVP，“世民談云計算”微信公眾號作者劉世民 2024年4月21日寫于上海推薦序三方老師邀我為本書作序，實話實說我很惶恐，畢竟我的教學和研究領域與大模型領域并不完全契合。拿到本書后，拜讀數次，覺得還是有些話要說，不當之處還請作者和讀者海涵。我從計算機專業的學生成長為勤耕不輟的教師，方老師從風華正茂的IT青年成長為計算機領域的資深專家，可以說，我們是相識、相知較深的朋友。方老師時常迸發的對技術發展趨勢的真知灼見，總能讓我感受到他對計算機前沿不懈探索的熱忱。近年來，方老師在其微信公眾號上連載的技術文章，讓人對相關領域的技術發展趨勢有了清晰的認知。可以說，他是一名很好的計算機領域的科普作者，是懂得如何用深入淺出的語言讓讀者領會深意、學通知識的。在“博世互聯世界2024”大會上，埃隆·馬斯克遠程接受了博世CEO斯特凡·哈同和董事長馬庫斯·海恩的采訪，就人工智能議題發表看法。他認為，人工智能的快速擴張將導致電力供應緊張。我認為，這種令人擔憂的情況恐怕會很快出現。大模型“適時”地出現在了人類科技的工具箱里，當我們沉浸在一個個表現優秀的神經網絡模型中，看到一個個大模型、超大模型快速升級、迭代時，我們是否忽視了大模型算力本身的架構是如何搭建和運作的，乃至從綠色節能的角度是如何調節和調度的呢？不用猶豫，我們的確忽視了。算力中心作為大模型基礎架構，在其搭建過程中，除了大模型本身性能是否優異的問題，如何對與之關聯的硬件進行部署、對硬件計算能力進行優化和提升，已經是繞不過去的突出問題。本書恰恰從這個角度給出了相應的解決方案，而且呈現的形式不是枯燥乏味的描述，而是能讓讀者在思考及會心一笑的狀態下，了解大模型基礎架構的整體形態和各子系統是如何運作的，以及是如何響應需求且充分利用平臺資源的。這一亮點，在理論書籍盛行的計算機專業領域無異于一道甘泉。我真誠地希望讀者能夠發現本書，翻閱本書，喜愛本書。本書的另一大亮點，可能會被人忽視，但我要提出來，那就是在本書中貫徹始終的計算機系統架構設計中的哲學方法論。我作為一名高校教師，任教數年來，深感學生，尤其是計算機專業的學生，對所學專業的認知往往停留在編程層面，不能成體系地掌握專業領域的知識結構，更遑論計算機系統架構設計中的哲學方法論。而這些哲學層面的理論缺失，往往導致學生在未來的工作領域，很難用系統工程的眼光去看待工程項目的實施，對其中蘊含的科學方法論更是無從談起。因此，本書提及的這些哲學方法論，是對專業人員提升思維層次且強化系統認知的很好補益。在寫本序時，我一直在聽歌曲Positive Outlook。在探索人工智能的道路上，我們能被智者指點迷津，從而繼續奔赴星辰大海，是幸福的。本書對計算機專業領域的學生及技術工作者學習和了解大模型相關知識有很大的幫助。希望本書能收獲更多的讀者，也希望方老師在后續的工作中結合自己的心得，為我們寫出更多、更好的著作。江蘇科技大學計算機學院王琦前言從2022年年底開始，以ChatGPT為代表的生成式人工智能（AIGC）技術，便成為全球廣泛關注的熱點。 AIGC技術的落地，離不開大模型。大模型指包含的參數量達到十億級別，需要采用多任務、分布式機器學習訓練系統的深度神經網絡模型。以GPT-3為例，其參數量達到了1 750億之巨。以大模型與AIGC為代表的AI（人工智能）技術，對提供算力的基礎架構的構建，也提出了更高的要求。由于訓練大模型往往需要昂貴的算力設備，所以如何構建穩定、高效、易擴展的基礎架構，讓昂貴的算力設備盡量發揮至高效能，也成為架構師們探索的重要方向。本書首先從AI算法的特點開始，分析了AI相關應用的架構及對應的硬件特性，然后對如何構建、擴展、運行支撐AI應用的硬件平臺，以及如何調度AI算力并構建支撐應用的存儲、網絡、中間件、運維、運營平臺進行了討論。期望讀者在閱讀本書以后，能思考和理解以下問題。 ? AI算法主要有哪些，它們的共同特點是什么？ ? 如何便捷地開發AI算法程序？ ? 如何部署和調度AI算法程序？ ? AI算法程序需要哪些硬件特性的支持，又是如何調用這些硬件的？ ? 分布式AI計算依賴哪些硬件特性？ ? 如何調度AI算力，使之服務于不同用戶的不同應用，并盡可能發揮硬件的計算能力？ ? 怎樣構建能夠無限橫向擴展的AI算力平臺，并為AI算力集群構建不同業務需要的通信網絡？ ? 如何高效、可靠地存取AI算法程序所需的海量數據及訓練成果？ ? 如何為AI算法程序提供中間件、數據庫和微服務框架等支撐組件，避免程序員重復“造輪子”，提升開發、部署效率？ ? 如何運維、運營AI算力平臺，讓平臺資源得到充分利用，讓成本中心轉型為利潤中心？下面，讓我們翻開本書，找到這些問題的答案，成為大模型時代合格的云計算架構師。