天天看點

Java爬蟲~~爬蟲僞代碼

之前一直有個同僚想讓我教教他怎麼把csdn上的資料爬下來的,我在這裡就簡單的說一下~~話說做爬蟲我也不是專業的~~業餘的~~有什麼問題幫我指正就好~~233333

為什麼是僞代碼呢?就是給大家把原理講講~~真實代碼我就不在這裡寫了~~大家自己琢磨去吧~~

需要如下幾個工具

1、緩存:我采用的是redis~~經常做背景習慣用了~~23333

2、dom解析工具

3、網絡連結工具

話說後面兩個我直接就用jsoup了

我個人的話是先做了一個緩存url方法

類的樣子大概是這樣的

又做了一個下載下傳資料的

這是個最簡單的小栗子

但是呢~~你如果真用這個去寫個爬蟲的話~~

額~~為什麼呢~~如果這麼遞歸下去~~肯定棧溢出了~~

是以還有好多工作要做~~2333333