用java調用python的爬蟲程式,是一件很有意思的事情, 但解決方法大多不靠譜,作者花了兩天的時間,動手實踐,最終完全解決了問題
java-python
Java調用Python爬蟲需要解決的問題:
參數傳遞問題
由python腳本通過, sys.argv[1]
讀取參數
依賴包的問題
用virtualenv建構虛拟環境,在虛拟環境安裝所有相關依賴包, 用虛拟環境内的python解釋器去執行python腳本, 可以完美解決依賴包問題
java與python資料傳遞
python腳本負責将爬取的内容儲存為檔案, 檔案儲存完成後, 由java程式讀取文檔内容
import java.io.IOException;
import java.io.File;
public class BPython {
public static void main(String[] args) {
// 擷取目前路徑
File directory = new File("");//設定為目前檔案夾
String dirPath = directory.getAbsolutePath();//擷取絕對路徑
Process proc;
try {
// python解釋器路徑
String pyPath = "/Users/lijianzhao/.virtualenvs/py3/bin/python3";
// python腳本檔案路徑
String pyFilePath = dirPath+ "/bdindex.py";
System.out.println(pyFilePath);
// 傳給python的參數
String argv1 = "一人之下";
proc = Runtime.getRuntime().exec(pyPath + " "+ pyFilePath + " " +argv1);
proc.waitFor();
} catch (IOException e) {
e.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
# coding=utf-8
import requests
from lxml import etree
import os
import sys
def getData(wd):
# 設定使用者代理頭
headers = {
# 設定使用者代理頭(為狼披上羊皮)
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
}
# 構造目标網址
target_url = "https://www.baidu.com/s?wd="+str(wd)
# 擷取響應
data = requests.get(target_url, headers = headers)
# xpath格式化
data_etree = etree.HTML(data.content)
# 提取資料清單
content_list = data_etree.xpath('//div[@id="content_left"]/div[contains(@class, "result c-container")]')
# 定義傳回的字元串
result = ""
# 擷取标題, 内容, 連結
for content in content_list:
result_title = "<标題> "
bd_title = content.xpath('.//h3/a')
for bd_t in bd_title:
result_title += bd_t.xpath('string(.)')
result_content = "<内容>"
bd_content = content.xpath('.//div[@class="c-abstract"]')
for bd_c in bd_content:
result_content += bd_c.xpath('string(.)')
try:
result_link = "<連結>"+str(list(content.xpath('.//div[@class="f13"]/a[@class="c-showurl"]/@href'))[0])
except:
result_link = "<連結>: 空"
result_list = [result_title, "\n" , result_content , "\n", result_link]
for result_l in result_list:
result += str(result_l)
return result
# 儲存為檔案
def saveDataToFile(file_name, data):
# 建立檔案夾
if os.path.exists("./data/"):
pass
else:
os.makedirs("./data/")
with open("./data/"+file_name+".txt", "wb+") as f:
f.write(data.encode())
def main():
wd = ""
print(wd)
try:
wd = sys.argv[1]
except:
pass
if (len(wd) == 0):
wd = "Hello"
str_data = getData(wd)
saveDataToFile(wd, str_data)
print("end")
if __name__ == '__main__':
main()
小結
python可能是最好用的爬蟲語言, 以後遇到采集資料的需求時, 可以用java直接調用python的爬蟲, 人生苦短, 我用python