介紹
功能:網絡爬蟲
開發語言:c++
開發者:Sébastien Ailleret(法國)
特點:隻抓取網頁,高效(一個簡單的larbin的爬蟲可以每天擷取500萬的網頁)
安裝
安裝平台:Ubuntu 12.10
安裝:
期間會出現錯誤,解決
1. adns檔案夾下internal.h檔案569-571行:
改為
2. 輸入sudo ./congure 出現錯誤
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<code>make[2]: 正在進入目錄 `/home/byd/test/larbin-2.6.3/src/utils'</code>
<code>makedepend -f- -I.. -Y *.cc 2> /dev/null > .depend</code>
<code>make[2]: *** [dep-in] 錯誤 127</code>
<code>make[2]:正在離開目錄 `/home/byd/test/larbin-2.6.3/src/utils'</code>
<code>make[2]: 正在進入目錄 `/home/byd/test/larbin-2.6.3/src/interf'</code>
<code><span style=</code><code>"color: #ff0000;"</code><code>><strong>makedepend</strong></span> -f- -I.. -Y *.cc 2> /dev/null > .depend</code>
<code>make[2]:正在離開目錄 `/home/byd/test/larbin-2.6.3/src/interf'</code>
<code>make[2]: 正在進入目錄 `/home/byd/test/larbin-2.6.3/src/fetch'</code>
<code>make[2]:正在離開目錄 `/home/byd/test/larbin-2.6.3/src/fetch'</code>
<code>make[1]: *** [dep] 錯誤 2</code>
<code>make[1]:正在離開目錄 `/home/byd/test/larbin-2.6.3/src'</code>
<code>make: *** [dep] 錯誤 2</code>
上邊提示makedepend 有問題,于是輸入makedepend,提示
makedepend 沒安裝,但是可以通過
ok了。
3. 到/usr/include/c++/下CP一份iostream檔案到larbin的src目錄下。并将其名改為iostream.h,在檔案中添加一句
然後,繼續
運作
可以在浏覽器上輸入"localhost:8081"看目前爬蟲的運作狀況
終止
重新開機
再次啟動larbin時出現錯誤(隻輸入指令 ./larbin)
原因
當用戶端保持着與伺服器端的連接配接,這時伺服器端斷開,再開啟伺服器時會出現: Address already in use
解決
可以看到(如下圖),殺死程序即可
其中
在Internet RFC标準中,Netstat的定義是: Netstat是在核心中通路網絡及相關資訊的程式,它能提供TCP連接配接,TCP和UDP監聽,程序記憶體管理的相關報告
kill - 9 表示強制殺死該程序(最好少用,他是強制性的,即使是系統程序也會殺掉的)
配置
1、larbin.conf檔案
<a></a>
2、options.h
2.1 輸出模式
這些模式被定制在src/type.h中,可以在src/interf/useroutput.cc中定制自己的輸出模式。這個檔案中還有很多相關配置,更改後,需要重新編譯。
2.2 特定查詢
2.3 設定完要設定特定檔案的管理
可以通過"src/fetch/specbuf.cc" and "src/fetch/specbuf.h" 定義特定檔案的管理方式。
2.4 你要爬蟲做什麼
2.5 其他選項說明
2.6 效率和特征
2.7 Larbin怎麼工作
參考
<a href="http://blog.csdn.net/dream2009gd/article/details/8506922">Larbin配置與使用</a>
本文轉自jihite部落格園部落格,原文連結:http://www.cnblogs.com/kaituorensheng/p/3676851.html,如需轉載請自行聯系原作者