之前一直有個同僚想讓我教教他怎麼把csdn上的資料爬下來的,我在這裡就簡單的說一下~~話說做爬蟲我也不是專業的~~業餘的~~有什麼問題幫我指正就好~~233333
為什麼是僞代碼呢?就是給大家把原理講講~~真實代碼我就不在這裡寫了~~大家自己琢磨去吧~~
需要如下幾個工具
1、緩存:我采用的是redis~~經常做背景習慣用了~~23333
2、dom解析工具
3、網絡連結工具
話說後面兩個我直接就用jsoup了
我個人的話是先做了一個緩存url方法
類的樣子大概是這樣的
又做了一個下載下傳資料的
這是個最簡單的小栗子
但是呢~~你如果真用這個去寫個爬蟲的話~~
額~~為什麼呢~~如果這麼遞歸下去~~肯定棧溢出了~~
是以還有好多工作要做~~2333333