天天看點

如何高效的進行資料采集

随着人工智能與大資料技術的快速發展,資料作為智能商業時代的重要生産要素,不僅網際網路企業重視,衆多傳統企業也紛紛布局,欲通過資料進行轉型更新。網際網路現在可以說是一個龐大的資料庫資源,而且是雜亂無章無結構的大資料庫,那麼在智能商業時代,如何才能做到有效提取資料價值,在競争中脫穎而出?也正是是以,現如今也出現了一個更專業的名詞——網絡爬蟲。

網絡爬蟲就是一種自動擷取網頁内容的程式,也是搜尋引擎重要的一部分。隻要正常能通路的網站,爬蟲也是可以輕松的通路抓取。所謂的資料抓取,其實也就是模拟普通人批量通路目标網站擷取有價值的資訊,自動采集,減少人工幹預。

import requests
import threading
def fetch(url):
  response = requests.get(url)
  print('Get %s: %s' % (url, response))
h1 = threading.Thread(target = fetch, args = ("http://jshk.com.cn/",))
h2= threading.Thread(target = fetch, args = ("https://v.duoip.cn/",))
h3= threading.Thread(target = fetch, args = (" https://www.taobao.com/",))
h1.start()
h2.start()
h3.start()
h1.join()
h2.join()
h3.join()      

繼續閱讀