天天看點

SmartDo資料挖掘思路

SmartDo資料挖掘思路

資料挖掘部分:

資料挖掘的主要網址為:

​https://www.amazon.com/Best-Sellers/zgbs​

挖掘部分為網址左邊的入口,大約20多個,其中頁面分級如下:

一級:
https://www.amazon.com/Best-Sellers/zgbs

二級:(Home-Kitchen)
https://www.amazon.com/Best-Sellers-Home-Kitchen/zgbs/home-garden/ref=zg_bs_nav_0

三級:(Bedding)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Bedding/zgbs/home-garden/1063252/ref=zg_bs_nav_hg_1_hg

四級:(Quilts-Sets)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts-Sets/zgbs/home-garden/10671039011/ref=zg_bs_nav_hg_2_1063252

五級:(Quilts)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts/zgbs/home-garden/3732171/ref=zg_bs_nav_hg_3_10671039011      

其中括号内的為點選的URL入口。

  1. 将所有類目下的URL儲存到資料庫中
  2. 配置設定不同的類目的URL到不同的計算機,實行分布抓取
  3. 将抓取的HTML儲存到本地
  4. 一邊儲存HTML時一邊進行解析,将自己需要的資訊提取出來
  5. 将資訊儲存到資料庫中

資料儲存部分:

graph LR
DB庫-->table表1
DB庫-->table表2
DB庫-->table表3
DB庫-->table表4      

資料庫的搭建較為繁瑣,需要從長計議。