分布式爬蟲和搜尋的設計與實作

爬取網站，采用流程節點，用來處理摘要計算、關鍵字計算、相似度計算、熱度計算。資料經過流程計算以後，落庫，建立反向索引。搜尋根據關鍵詞到反向索引表可以快速搜尋。

實作步驟

1.基礎工作：收集一些網址，作為爬蟲的入口。種子url表結構：

{

“_id” : ObjectId(“c54c4352310b3c”),

“urlId” : “io563784uiodf7e96bb9ij”,

“url” : “

http://bigcat.iteye.com/blog/33

”,

“deleteFlag” : “1”,

“createTime” : “20170505120012”,

“rootUrl” : “

http://bigcat2013.iteye.com

“deep” : 1.0

} urlId為随機生成，url為種子url，deleteFlag:0表示未删除1為已删除 rootUrl:根網站位址 deep:通路深度，深度越深表示層級越低。

2.基礎工作：整理行業類别，并設定類别的關鍵字（為後續網頁行業歸類做相似度計算依據）。行業類别表結構：

“_id” : ObjectId(“5a9ec8b0552310b3d”),

“urlId” : “io5636fbauiodf7e96bb9ij”,

“topicCode” : “IT”

} urlId為行業代表url topicCode：表示行業類别編碼

3.爬取網頁：jsoup工具分析、識别、稽核網頁的内容（例如：是否為廣告、内容過短），若内容稽核通過，則落庫。流程的第一個節點完成。流程表結構：

“_id” : ObjectId(“5aa00c0cd0c5e5df”),

“flowId” : “8315006ae8c03b1b648c”,

“urlId” : “d162bab5ebc467bb1f4”,

“nodeCode” : “UrlDataExtract”,

“startFlag” : “1”,

“endFlag” : “1”,

“seqNo” : 1.0

} flowId：流程ID urlId：網頁ID nodeCode：節點編碼 startFlag:流程開始标記 1：已開始 0：未開始 endFlag：結束标記 0：未結束 1：已結束 seqNo：流程節點序号（升序編号）

網頁資料表結構：

“_id” : ObjectId(“5aa2adbc5c6b736”),

“urlId” : “9bc15a1c0e54c1f03c27”,

“url” : “www.runoob.com/angularjs-http.html”,

“txt” : “AngularJS Http | 菜鳥教程菜鳥教程 – 學的不僅是技術，更是夢想！首頁 HTMLCSS JavaScript jQuery 更多……此處省略”,

“title” : “AngularJS Http | 菜鳥教程”,

“hots” : 30.0

} urlId：網頁ID url:網頁位址 txt:網頁摘要（限制500字以内） title:标題名稱 hots:表示搜尋熱度

4.關鍵詞抽取：網頁摘要内容生成，關鍵詞提取（Ikanalyzer開源）。關鍵詞存入關鍵詞表。關鍵詞表結構：

“_id” : ObjectId(“5aa00c779cc5e88a”),

“urlId” : “d162bab5edbc467bb1f4”,

“keyWord” : “資料庫”,

“counts” : 10.0

} urlId：網頁ID keyWords：關鍵詞描述 counts：關鍵詞出現次數。資料字典表：

“_id” : ObjectId(“5aa00ce99cceec5ec78”),

“wordId” : “9e83bed9f04bcb”,

“word” : “網絡”

} wordId:字ID word:字描述

5.反向索引建立：根據關鍵詞生成反向索引，将url對應的id存入倒序索引表。相似度表（用于計算行業歸類使用）：

“_id” : ObjectId(“5aa00ce5ec89”),

“urlIdSeed” : “4506d40e0f3163d2”,

“urlId”:werqd09if3c0f39ijnh

“similar” : 30.0

} urlIdSeed：種子urlId urlId:網頁ID similar:相似度數值（100分為上限），倒序索引表：

“_id” : ObjectId(“5aa00ced0c5ec66”),

“urlId” : “e3a9c8d4d1e6e02”,

http://www.cnblogs.com/p/5.html/

“wordId” : “fa368b5b5b69e2230c”,

“title” : “Java 網絡爬蟲擷取網頁源代”,

“summary” : “過配置檔案将該請求轉換為網站首頁位址index.php”,

} urlId：網頁ID url：網址 wordId：關鍵詞ID title：标題 summary：摘要 hots:熱度

功能擴充

1、将爬蟲功能內建在jar包裡，資料存儲采用記憶體（HashMap），爬蟲和資料中心通訊，拉去種子url，爬取加工完成以後，将處理好的結果，推送給資料中心（通訊過程采用非對稱加密）。

2、資料中心通過消息隊列降低nosql壓力。

技術工具

springBoot、mongodb、kafka、dubbo、job。

git後端位址：

https://github.com/sijunx/mySpider

git前端位址:

https://github.com/sijunx/whatsUp

demo網址：www.dahansoft.com

分布式爬蟲和搜尋的設計與實作

繼續閱讀

neo4j之cypher使用文檔

Git學習筆記5 merge沖突時二選一

适用于JavaScript的ECMAScript 2020規範向前發展

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

JS生成uuid的四種方法

vue-cli簡介（中文翻譯）

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

layui多任務上傳添加進度條

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method