Java調用Python爬蟲

2018-04-25 23:50:00

用java調用python的爬蟲程式,是一件很有意思的事情, 但解決方法大多不靠譜,作者花了兩天的時間,動手實踐,最終完全解決了問題

java-python

Java調用Python爬蟲需要解決的問題:

參數傳遞問題

由python腳本通過, sys.argv[1] 讀取參數

依賴包的問題

用virtualenv建構虛拟環境,在虛拟環境安裝所有相關依賴包, 用虛拟環境内的python解釋器去執行python腳本, 可以完美解決依賴包問題

java與python資料傳遞

python腳本負責将爬取的内容儲存為檔案, 檔案儲存完成後, 由java程式讀取文檔内容

import java.io.IOException;
import java.io.File;

public class BPython {
    public static void main(String[] args) {
        // 擷取目前路徑
        File directory = new File("");//設定為目前檔案夾
        String dirPath = directory.getAbsolutePath();//擷取絕對路徑
        Process proc;
        try {
            // python解釋器路徑
            String pyPath = "/Users/lijianzhao/.virtualenvs/py3/bin/python3";
            // python腳本檔案路徑
            String pyFilePath = dirPath+ "/bdindex.py";
            System.out.println(pyFilePath);
            // 傳給python的參數
            String argv1 = "一人之下";
            proc = Runtime.getRuntime().exec(pyPath + " "+ pyFilePath + " " +argv1);
            proc.waitFor();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}

# coding=utf-8

import requests
from lxml import etree
import os
import sys

def getData(wd):
    # 設定使用者代理頭
    headers = {
        # 設定使用者代理頭(為狼披上羊皮)
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
    }
    # 構造目标網址
    target_url = "https://www.baidu.com/s?wd="+str(wd)
    # 擷取響應
    data = requests.get(target_url, headers = headers)
    # xpath格式化
    data_etree = etree.HTML(data.content)
    # 提取資料清單
    content_list = data_etree.xpath('//div[@id="content_left"]/div[contains(@class, "result c-container")]')
    # 定義傳回的字元串
    result = ""
    # 擷取标題, 内容, 連結
    for content in content_list:
        result_title = "<标題>  "
        bd_title = content.xpath('.//h3/a')
        for bd_t in bd_title:
            result_title += bd_t.xpath('string(.)')

        result_content = "<内容>"
        bd_content = content.xpath('.//div[@class="c-abstract"]')
        for bd_c in bd_content:
            result_content += bd_c.xpath('string(.)')
        try:
            result_link = "<連結>"+str(list(content.xpath('.//div[@class="f13"]/a[@class="c-showurl"]/@href'))[0])
        except:
            result_link = "<連結>: 空"

        result_list = [result_title, "\n" , result_content , "\n", result_link]
        for result_l in result_list:
            result += str(result_l)
    return result


# 儲存為檔案
def saveDataToFile(file_name, data):
    # 建立檔案夾
    if os.path.exists("./data/"):
        pass
    else:
        os.makedirs("./data/")
    with open("./data/"+file_name+".txt", "wb+") as f:
        f.write(data.encode())

def main():
    wd = ""
    print(wd)
    try:
        wd = sys.argv[1]
    except:
        pass

    if (len(wd) == 0):
        wd = "Hello"

    str_data = getData(wd)   

    saveDataToFile(wd, str_data)
    print("end")


if __name__ == '__main__':
    main()

小結
python可能是最好用的爬蟲語言, 以後遇到采集資料的需求時, 可以用java直接調用python的爬蟲, 人生苦短, 我用python

Java調用Python爬蟲

Java調用Python爬蟲需要解決的問題:

參數傳遞問題

依賴包的問題

java與python資料傳遞

小結

繼續閱讀

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

在python中建立excel并寫入