下面是一些常用的方法,可用于编写使用Go语言编写爬虫程序:
- 使用net/http包进行HTTP请求
Go语言的标准库提供了net/http包,可用于HTTP请求。您可以使用http.Get()函数或http.Post()函数发送HTTP GET或POST请求,并使用ioutil.ReadAll()函数读取响应体。
示例代码:
package main
import (
"fmt"
"io/ioutil"
"net/http"
)
func main() {
resp, err := http.Get("https://example.com")
if err != nil {
panic(err)
}
defer resp.Body.Close()
body, err := ioutil.ReadAll(resp.Body)
if err != nil {
panic(err)
}
fmt.Println(string(body))
}
- 使用goquery包解析HTML文档
goquery是一个流行的Go语言包,可用于解析HTML文档。它提供了一个类似于jQuery的API,易于使用和学习。
示例代码:
package main
import (
"fmt"
"github.com/PuerkitoBio/goquery"
"net/http"
)
func main() {
resp, err := http.Get("https://example.com")
if err != nil {
panic(err)
}
defer resp.Body.Close()
doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
panic(err)
}
doc.Find("a").Each(func(i int, s *goquery.Selection) {
href, _ := s.Attr("href")
fmt.Println(href)
})
}
在上面的示例中,我们使用goquery包解析名为example.com的网页,并打印出所有链接的href属性。
- 存储数据
在爬取数据后,您可能需要将数据存储到本地文件或数据库中。Go语言中可以使用ioutil.WriteFile()函数将数据存储到本地文件中,并使用database/sql包将数据存储到数据库中。
示例代码:
package main
import (
"database/sql"
"fmt"
"io/ioutil"
"net/http"
_ "github.com/go-sql-driver/mysql"
)
func main() {
resp, err := http.Get("https://example.com")
if err != nil {
panic(err)
}
defer resp.Body.Close()
body, err := ioutil.ReadAll(resp.Body)
if err != nil {
panic(err)
}
// 将数据存储到本地文件
err = ioutil.WriteFile("data.txt", body, 0644)
if err != nil {
panic(err)
}
// 将数据存储到数据库
db, err := sql.Open("mysql", "user:password@tcp(localhost:3306)/database")
if err != nil {
panic(err)
}
defer db.Close()
stmt, err := db.Prepare("INSERT INTO data (body) VALUES (?)")
if err != nil {
panic(err)
}
defer stmt.Close()
_, err = stmt.Exec(body)
if err != nil {
panic(err)
}
fmt.Println("Data stored successfully")
}
在上面的示例中,我们使用ioutil.WriteFile()函数将数据存储到名为data.txt的本地文件中,并使用sql包将数据存储到名为database的MySQL数据库中。请注意,您需要使用正确的MySQL连接字符串替换user、password和database参数。
- 并发爬取
在爬取网站时,您可能需要同时发送多个HTTP请求。在Go语言中,可以使用goroutine和channel来实现并发爬取。使用goroutine可让您同时启动多个任务,使用channel可让它们之间进行通信。
示例代码:
package main
import (
"fmt"
"github.com/PuerkitoBio/goquery"
"net/http"
)
func main() {
urls := []string{
"https://example.com/page1",
"https://example.com/page2",
"https://example.com/page3",
}
ch := make(chan string)
for _, url := range urls {
go func(url string) {
resp, err := http.Get(url)
if err != nil {
panic(err)
}
defer resp.Body.Close()
doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
panic(err)
}
ch <- doc.Find("title").Text()
}(url)
}
for i := 0; i < len(urls); i++ {
fmt.Println(<-ch)
}
}
在上面的示例中,我们使用goroutine同时爬取多个网页,并使用channel将每个网页的标题发送回主函数。使用len(urls)循环等待所有任务完成,并打印出每个网页的标题。
总结:
以上是一些使用Go语言编写爬虫程序的常用方法。当然,这只是冰山一角,实际上还有很多其他的技术和工具可以使用。建议您在编写爬虫程序之前,对目标网站的反爬机制和使用条款进行调查,并尽可能遵守相关规定和法律。