天天看點

《大規模元搜尋引擎技(1)》一導讀

《大規模元搜尋引擎技(1)》一導讀

當下大資料技術發展變化日新月異,大資料應用已經遍及工業和社會生活的方方面面,原有的資料管理理論體系與大資料産業應用之間的差距日益加大,而工業界對于大資料人才的需求卻急劇增加。大資料專業人才的培養是新一輪科技較量的基礎,高等院校承擔着大資料人才培養的重任。是以大資料相關課程将逐漸成為國内高校計算機相關專業的重要課程。但縱觀大資料人才培養課程體系尚不盡如人意,多是已有課程的“冷拼盤”,頂多是加點“調料”,原材料沒有新鮮感。現階段無論多麼新多麼好的人才培養計劃,都隻能在20世紀六七十年代編寫的計算機知識體系上施教,無法把當下大資料帶給我們的新思維、新知識傳導給學生。

為此我們意識到,缺少基礎性工作和原始積累,就難以培養符合工業界需要的大資料複合型和交叉型人才。是以急需在思維和理念方面進行轉變,為現有的課程和知識體系按大資料應用需求進行延展和補充,加入新的可以因材施教的知識子產品。我們肩負着大資料時代知識更新的使命,每一位學者都有責任和義務去為此“增磚添瓦”。

在此背景下,我們策劃群組織了這套大資料管理叢書,希望能夠培養資料思維的理念,對原有資料管理知識體系進行完善和補充,面向新的技術熱點,提出新的知識體系/知識點,拉近教材體系與大資料應用的距離,為受教者應對現代技術帶來的大資料領域的新問題和挑戰,掃除障礙。我們相信,假以時日,這些著作彙溪成河,必将對未來大資料人才培養起到“基石”的作用。

叢書定位:面向新形勢下的大資料技術發展對人才培養提出的挑戰,旨在為學術研究和人才培養提供可供參考的“基石”。雖然是一些不起眼的“磚頭瓦塊”,但可以為大資料人才培養積累可用的新子產品(新素材),彌補原有知識體系與應用問題之前的鴻溝,力圖為現有的資料管理知識查漏補缺,聚少成多,最終形成适應大資料技術發展和人才培養的知識體系和教材基礎。

叢書特點:叢書借鑒morgan & claypool publishers出版的synthesis lectures on data management,特色在于選題新穎,短小精湛。選題新穎即面向技術熱點,彌補現有知識體系的漏洞和不足(或延伸或補充),内容涵蓋大資料管理的理論、方法、技術等諸多方面。短小精湛則不求系統性和完備性,但每本書要自成知識體系,重在闡述基本問題和方法,并輔以例題說明,便于施教。

叢書組織:叢書采用國際學術出版通行的主編負責制,為此特邀中國人民大學孟小峰教授(email:[email protected])擔任叢書主編,負責叢書的整體規劃和選題。責任編輯為機械工業出版社華章分社姚蕾編輯(email:[email protected])。

當今資料洪流席卷全球,而中國正在努力從資料大國走向資料強國,大資料時代的知識更新和人才培養刻不容緩,雖然我們的力量有限,但聚少成多,積小緻巨。是以,我們在設計本套叢書封面的時候,特意選擇了清代蘇州籍宮廷畫家徐揚描繪蘇州風物的巨幅長卷畫作《姑蘇繁華圖》(原名《盛世滋生圖》)作為底圖以表達我們的美好願景,每本書選取這幅巨卷的一部分,一步步見證和記錄資料管理領域的學者在學術研究和工程應用中的探索和實踐,最終形成适應大資料技術發展和人才培養的知識圖譜,共同譜寫出我們這個大資料時代的盛世華章。

在此期望有志于大資料人才培養并具有豐富理論和實踐經驗的學者和專業人員能夠加入到這套書的編寫工作中來,共同為中國大資料研究和人才培養貢獻自己的智慧和力量,共築屬于我們自己的“時代記憶”。歡迎讀者對我們的出版工作提出寶貴意見和建議。

<a href="https://yq.aliyun.com/articles/108825">第1章 緒言</a>

<a href="https://yq.aliyun.com/articles/108829">1.1 web上查找資訊</a>

<a href="https://yq.aliyun.com/articles/108831">1.2 文字檢索概述</a>

<a href="https://yq.aliyun.com/articles/108840">1.3 搜尋引擎技術概述</a>

<a href="https://yq.aliyun.com/articles/108843">1.4 本書概述</a>

<a href="https://yq.aliyun.com/articles/108846">第2章 元搜尋引擎體系結構</a>

<a href="https://yq.aliyun.com/articles/108853">2.1 系統體系結構</a>

<a href="https://yq.aliyun.com/articles/108857">2.2 為什麼使用元搜尋引擎技術</a>

<a href="https://yq.aliyun.com/articles/108860">2.3 挑戰環境</a>

第3章 搜尋引擎選擇

3.1 粗糙表記方法

3.2 基于學習的方法

3.3 基于樣本文檔的方法

3.4 統計表記方法

3.4.1 d-wise

3.4.2 cori net

3.4.3 ggloss

3.4.4 潛在有用文檔數目

3.4.5 最相似文檔的相似度

3.4.6 搜尋引擎表記生成

繼續閱讀