天天看點

從頭開始學Java資料采集

第一章 網絡爬蟲概述與原理

​​1.1 網絡爬蟲簡介​​1.2 網絡爬蟲分類

1.3 網絡爬蟲流程

1.4 網絡爬蟲采集政策

第二章 HTTP協定基礎與網絡抓包

​​2.1 HTTP簡介​​2.2 HTTP統一資源定位符

2.3 HTTP封包

2.4 HTTP請求方法

2.5 HTTP狀态碼

2.6 HTTP資訊頭

2.7 網絡抓包

第三章 網頁内容擷取

3.1 Jsoup的使用

​​3.1.1 Jsoup環境搭建​​3.1.2 Jsoup請求URL

3.1.3 Jsoup設定頭資訊

3.1.4 Jsoup送出請求參數

3.1.5 Jsoup逾時設定

3.1.6 Jsoup代理伺服器

3.1.7 Jsoup響應轉輸出流

3.1.8 Jsoup大檔案内容擷取

3.2 HttpClient的使用

​​3.2.1 HttpClient環境搭建​​3.2.2 HttpClient請求URL

3.2.3 HttpClient實體工具類

3.2.4 HttpClient設定頭資訊

3.2.5 HttpClient送出請求參數

3.2.6 HttpClient逾時設定

3.2.7 HttpClient代理伺服器的使用

3.2.8 HttpClient檔案下載下傳

3.2.9 HttpClient請求重試

3.2.10 HttpClient多線程執行請求

第四章 網頁内容解析

​​4.1 Jsoup解析​​4.2 JsoupXpath解析

4.3 XML解析

4.4 JSON解析

第五章 網絡資料存儲

​​5.1 網絡資料文本存儲​​5.2 網絡資料Excel存儲

5.3 網絡資料Mysql存儲

第六章 Selenium的使用

​​6.1 Selenium環境搭建​​6.2 Selenium定位元素

6.3 Selenium操作浏覽器

6.4 Selenium操作頁面元素

6.5 Selenium操作彈出視窗

6.6 Selenium操作彈出對話框

6.7 Selenium操作iframe中的元素

6.8 Selenium動态加載Javascript

繼續閱讀