Web數據管理:概念與技術( 簡體 字) | |
作者:孟小峰、劉偉、姜芳艽、李玉坤、王仲遠 編著 | 類別:1. -> 程式設計 -> 綜合 |
出版社:清華大學出版社 | 3dWoo書號: 39389 詢問書籍請說出此書號! 有庫存 NT售價: 345 元 |
出版日:8/21/2014 | |
頁數:344 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787302370727 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章緒論
1.1引言 1.2Web數據及特點 1.3Web數據管理及其應用 1.4Web數據抽取 1.5Web數據集成 1.6數據空間 1.7小結 參考文獻 第2章XML基礎知識 2.1引言 2.2基本概念 2.3XML查詢語言 2.4小結 參考文獻 第一部分Web數據抽取 第3章Web數據抽取方法概述 3.1引言 3.2Web頁面分類 3.3Web數據抽取定義 3.4Web數據抽取方法 3.5Web數據抽取評價標準 3.6小結 參考文獻 第4章數據型頁面抽取方法 4.1引言 4.2多記錄數據型頁面的抽取方法 4.3單記錄數據型頁面抽取方法 4.4小結 參考文獻 第5章文檔型頁面抽取方法 5.1引言 5.2單記錄文檔型頁面抽取方法 5.3多記錄文檔型頁面抽取方法 5.4小結 參考文獻 第6章包裝器的生成與維護 6.1引言 6.2包裝器的生成 6.3包裝器的維護 6.4系統結構 6.5小結 參考文獻 第7章基于視覺的數據抽取 7.1引言 7.2Web頁面上的視覺信息 7.3基于視覺的數據記錄抽取 7.4基于視覺的數據項抽取 7.5小結 參考文獻 第8章Web實體識別 8.1引言 8.2屬性分類 8.3整體解決方案 8.4訓練集的自動獲取 8.5屬性匹配 8.6屬性權重的迭代訓練 8.7小結 參考文獻 第二部分Web數據集成 第9章Web數據集成概述 9.1引言 9.2集成框架 9.3集成查詢接口的生成 9.4查詢處理 9.5查詢結果的處理 9.6小結 參考文獻 第10章查詢接口集成 10.1引言 10.2查詢接口分析與集成 10.3簡易查詢接口生成與處理 10.4小結 參考文獻 第11章不確定模式匹配 11.1引言 11.2模式匹配定義 11.3相似度計算 11.4基于數字實例的模式匹配 11.5模式匹配優化 11.6不確定性模式匹配 11.7小結 參考文獻 第12章查詢轉換 12.1引言 12.2查詢轉換問題 12.3近似查詢轉換定義 12.4基于動態規則的查詢轉換 12.5基于謂詞的查詢轉換 12.6基于查詢能力的查詢轉換 12.7小結 參考文獻 第13章數據庫采樣 13.1引言 13.2基本概念 13.3Web數據庫圖模型 13.4Web數據庫采樣方法 13.5小結 參考文獻 第14章數據庫大小估計 14.1引言 14.2一種樸素的基于詞頻的估算方法 14.3一種粗糙的基于詞頻的估算方法 14.4小結 參考文獻 第15章Web數據集成系統 15.1引言 15.2體系結構 15.3靜態集成案例——學術信息集成 15.4動態集成案例——工作信息集成 15.5小結 參考文獻 第三部分數據空間 第16章數據空間概述 16.1引言 16.2什么是數據空間 16.3數據空間的特征 16.4數據空間與數據庫 16.5數據空間與數據集成 16.6數據空間系統 16.7小結 參考文獻 第17章數據空間模型 17.1引言 17.2iDM數據模型 17.3核心數據空間 17.4任務空間 17.5小結 參考文獻 第18章數據空間索引 18.1引言 18.2倒排索引 18.3FAX索引 18.4UFAX索引 18.5小結 參考文獻 第19章數據空間查詢處理 19.1引言 19.2查詢接口 19.3關鍵字查詢 19.4多屬性組合查詢 19.5任務查詢 19.6小結 參考文獻 第20章數據空間系統 20.1引言 20.2實現技術 20.3系統框架 20.4系統功能 20.5其他系統 20.6小結 參考文獻 第四部分Web數據管理新技術 第21章Web信息可信性 21.1概述 21.2不同應用場景下的信息可信性 21.3信息可信度評估方法 21.4Web信息可信度評估框架 21.5小結 參考文獻 第22章移動Web搜索 22.1引言 22.2系統框架 22.3地理標記Web資源 22.4查詢處理 22.5相關性排名 22.6查詢結果可視化 22.7小結 參考文獻 第23章移動應用集成 23.1引言 23.2移動應用集成框架 23.3移動應用匹配 23.4關鍵技術 23.5小結 參考文獻 第24章大規模知識庫構建 24.1引言 24.2關聯數據 24.3知識圖譜 24.4小結 參考文獻 第25章社交媒體 25.1引言 25.2社交媒體的特點 25.3社交媒體數據帶來的挑戰 25.4社交媒體中的短文本分析 25.5基于社交媒體的事件發現 25.6社交媒體事件處理框架 25.7小結 參考文獻索引 本書介紹Web數據管理技術,包括:Web數據抽取(數據型頁面和文檔型頁面的抽取方法、基于視覺信息的抽取方法、包裝器生成與維護及實體識別),Web數據集成(查詢接口集成、模式匹配、查詢轉換、數據庫采樣、數據庫大小估計及集成系統實現),數據空間(數據空間的模型、索引、查詢及系統實現),以及Web數據管理新技術(Web信息可信性、移動Web搜索、移動應用集成、大規模知識庫構建及社交媒體)。
Web數據指能夠通過Web訪問到的所有數據。基于Web數據訪問形式不同,Web又分為淺層網絡淺層網絡(Surface Web)和深層網絡深層網絡(Deep Web)。如何有效地管理Web上的大量信息,以滿足用戶不斷增長的高質量的信息需求,成為學術界和產業界共同關注并致力于解決的問題。Web數據所呈現的特征為:海量異構;分布廣泛;動態增長;先有數據,后有模式。這使得Web數據無論從數量上還是復雜程度上,都與傳統數據庫技術所處理的數據顯著不同,需要有更先進的技術來管理Web數據。
Web數據管理Web數據管理的主要目的是解決Web上豐富信息資源有效利用的問題,從而大大提高Web應用的開發效率。Web數據管理是指針對特定的主題領域,利用數據抽取和數據集成技術,自動識別Web中與所給主題相關的實體及實體之間的關聯,構造面向主題的結構化關聯數據,并對這些數據進行有效處理(包括數據質量數據質量、動態演化動態演化、隱私保護隱私保護等),從而為用戶提供高質量的信息服務。 傳統的數據庫技術為傳統應用系統的開發提供了有利的支撐,縮短了應用開發周期,降低了系統維護成本。Web數據管理技術與傳統的數據庫技術一脈相承,其大大降低了Web應用系統開發的難度,同樣縮短了應用開發周期,降低了系統維護的代價。諸如學術集成系統學術集成系統、網絡輿情系統網絡輿情系統、價格比對系統價格比對系統、工作查找系統工作查找系統等應用,利用Web數據管理系統可以方便快捷地加以開發,并實現日常的自動增量維護。 當下大數據浪潮一浪高過一浪,大數據大數據所體現的數據量大(volume)、數據多樣性(variety)、實時性強(velocity) 、價值大(value)以及真實性(veracity)的特征與Web數據的特征幾多相似。因此本書所提出的Web數據管理技術與方法,本質上提供了將多源異構非結構化數據非結構化數據加以結構化管理的途徑,進而為解決大數據管理問題提供了有益的嘗試。 特別感謝兩位在此領域頗有建樹的學者百忙中撥冗為本書作序:美國賓漢姆頓紐約州立大學孟衛一教授和清華大學周立柱教授。孟衛一教授在Web數據管理方面是國際上的知名學者,作為元搜索引擎的開拓者在國際上享有盛譽,自2000年以來多次回國開辦Web數據管理方面的講習班,與本研究團隊交流密切,對我們的工作多有指導和幫助,他目前是Web時代信息管理國際會議(WAIM)指導委員會主席。周立柱教授領導的研究團隊在大規模Web數據管理和知識提取方面有出色的研究工作,對本實驗室的研究工作常年給予指導和幫助,他目前擔任中國計算機學會數據庫專業委員會主任委員。他們對本書作了整體概括和推介,在此深表謝意。 本書的形成凝聚了中國人民大學網絡與移動數據管理實驗室集體智慧。特別感謝實驗室的博士研究生和碩士研究生,先后有若干屆的學生參與到本項目的研究中來,他們是博士生劉偉、姜芳艽、李玉坤、張金增、馬如霞、馬友忠、李勇,以及碩士生谷明哲、王海燕、胡東東、李宇、李忺、林燦、凌妍妍、王仲遠、艾靜、趙婧、胡享梅、賈琳琳、張相於、寇玉波、陳威、鄧云、童薇、王淼、趙可君等。劉偉(第一部分)、姜芳艽(第二部分)、李玉坤(第三部分)、王仲遠(第15、21章)等直接參與寫作并在資料收集和文獻整理方面做了大量工作。 本書涉及面廣,內容豐富,參考文獻眾多。值得指出的是,在全書的撰寫和課題的研究中,盡管投入了大量精力、付出了艱苦努力,但受知識水平所限,書中不當之處在所難免,誠懇希望讀者批評指正并不吝賜教。如果有任何建議或意見,可發電子郵件。 孟小峰 2014年3月于北京 |