前言:
思路:
首先要解決的問題是, webbrowser 運作在STA 模式下,每次采集都進行了構造和釋放,是以首先避免這點,再就是,既然它是隻能依靠主STA模式的線程運作的話,那就模拟多頁面浏覽器的機制,構造足夠多的執行個體,讓它們同步執行,然後及時地給它們派發消息,那麼隻要伺服器帶寬和記憶體都足夠的情況下,它們可以最大程度降低并發采集所帶來的性能問題.
測試 10 次結果:
目前剛出的測試結果:
輸出:250 個頁面預覽圖 (平均)
耗時:5分鐘 (平均)
記憶體占用: 255兆(峰值)
并發:50
無法通路的頁面數:79頁(平均)
處理速度(250-79):1頁/1.75秒(平均)
硬體配置:
作業系統:Windows Vista Ultimate 6000
CPU:1.73 pm
記憶體:1GB
硬碟:60GB+80GB
顯示卡:ATI X700(256)
帶寬: 網通 ADSL (200K/秒)下載下傳
運作狀态:
<a href="https://images.cnblogs.com/cnblogs_com/chinasf/SnapProcessServices.jpg" target="_blank"></a>
<a href="https://images.cnblogs.com/cnblogs_com/chinasf/snap_output.jpg" target="_blank"></a>
這類采集有幾個問題是硬傷:
1.我隻知道通過webbrowser來實作頁面圖
2.目标網站的連接配接下載下傳頁面速度
在服務穩定之後,将開放源碼.并研究多機負載和一個站點的執行個體。
本文轉自suifei部落格園部落格,原文連結:http://www.cnblogs.com/Chinasf/archive/2006/12/30/607545.html,如需轉載請自行聯系原作者