天天看点

SmartDo数据挖掘思路

SmartDo数据挖掘思路

数据挖掘部分:

数据挖掘的主要网址为:

​https://www.amazon.com/Best-Sellers/zgbs​

挖掘部分为网址左边的入口,大约20多个,其中页面分级如下:

一级:
https://www.amazon.com/Best-Sellers/zgbs

二级:(Home-Kitchen)
https://www.amazon.com/Best-Sellers-Home-Kitchen/zgbs/home-garden/ref=zg_bs_nav_0

三级:(Bedding)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Bedding/zgbs/home-garden/1063252/ref=zg_bs_nav_hg_1_hg

四级:(Quilts-Sets)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts-Sets/zgbs/home-garden/10671039011/ref=zg_bs_nav_hg_2_1063252

五级:(Quilts)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts/zgbs/home-garden/3732171/ref=zg_bs_nav_hg_3_10671039011      

其中括号内的为点击的URL入口。

  1. 将所有类目下的URL储存到数据库中
  2. 分配不同的类目的URL到不同的计算机,实行分布抓取
  3. 将抓取的HTML保存到本地
  4. 一边保存HTML时一边进行解析,将自己需要的信息提取出来
  5. 将信息储存到数据库中

数据储存部分:

graph LR
DB库-->table表1
DB库-->table表2
DB库-->table表3
DB库-->table表4      

数据库的搭建较为繁琐,需要从长计议。