介紹:SharePoint的搜尋着實強大,而且最近用到SharePoint搜尋第三方爬網,感覺收獲挺大,而且網上資料沒找到太多類似的,就小記錄一下,分享給大家。
首先,我自己寫了一個net頁面,裡面讀取所有我需要内容,充當SharePoint爬網的資料源,對這個頁面進行爬網,頁面如下圖:

設定爬網規則:
特别的是,我的頁面上的連結,包含“?”問号,是以勾選了對複雜的URL進行爬網,下面的指定認證,可以選擇認證的賬号,如果需要Form認證的網頁,可以設定指定其他内容通路賬戶【特别:如果登入需要驗證碼的,SharePoint是無法爬網的】。設定完爬網規則,點選确定儲存,然後可以對Crawl内容源進行完全爬網了。
對Crawl内容源進行完全爬網,檢視爬網日志,如下圖:
在SharePoint搜尋頁面上,試試搜尋剛配置的内容源,如下圖:
搜尋結果:
注意事項:
1、 如果,伺服器處于代理通路網站的情況,需要配置管理中心的代理,位置在 搜尋管理 - 代理伺服器和逾時 - 管理中心URL/_admin/searchfarmsettings.aspx
2、 搜尋爬網内容,可能會出現異常情況,可以嘗試重置搜尋内容,位置在 搜尋管理 - 重置所有已爬網内容,重置一下搜尋結果。
3、 爬網結果,搜尋出來的結果,标題為搜尋頁面的Html的頁面Title,内容為頁面上的Body内容,連結為URL。
4、 同樣的搜尋配置,可以搜尋新浪,搜狐等網站。