83款網絡爬蟲開源軟體 - 小采采

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&

搜尋引擎 Nutch

Nutch 是一個開源Java 實作的搜尋引擎。它提供了我們運作自己的搜尋引擎所需的全部工具。包括全文搜尋和Web爬蟲。盡管Web搜尋是漫遊Internet的基本要求, 但是現有web搜尋引擎的數目卻在下降. 并且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web...

更多Nutch資訊

最近更新：【每日一博】Nutch 的 url 的正則過濾機制研究釋出于 20天前

網站爬蟲 Grub Next Generation

Grub Next Generation 是一個分布式的網頁爬蟲系統，包含用戶端和伺服器可以用來維護網頁的索引。

更多Grub Next Generation資訊

最近更新：Grub Next Generation 1.0 釋出釋出于 3年前

網站資料采集軟體網絡礦工采集器（原soukey采摘）

Soukey采摘網站資料采集軟體是一款基于.Net平台的開源軟體，也是網站資料采集軟體類型中唯一一款開源軟體。盡管Soukey采摘開源，但并不會影響軟體功能的提供，甚至要比一些商用軟體的功能還要豐富。Soukey采摘目前提供的主要功能如下： 1. 多任務多線... 更多網絡礦工采集器（原soukey采摘）資訊

PHP的Web爬蟲和搜尋引擎 PhpDig

PhpDig是一個采用PHP開發的Web爬蟲和搜尋引擎。通過對動态和靜态頁面進行索引建立一個詞彙表。當搜尋查詢時，它将按一定的排序規則顯示包含關鍵字的搜尋結果頁面。PhpDig包含一個模闆系統并能夠索引PDF,Word,Excel,和PowerPoint文檔。PHPdig适用于專業化更... 更多PhpDig資訊

網站内容采集器 Snoopy

Snoopy是一個強大的網站内容采集器（爬蟲）。提供擷取網頁内容，送出表單等功能。更多Snoopy資訊

Java網頁爬蟲 JSpider

JSpider是一個用Java實作的WebSpider，JSpider的執行格式如下： jspider [URL] [ConfigName] URL一定要加上協定名稱，如：http://，否則會報錯。如果省掉ConfigName，則采用預設配置。 JSpider 的行為是由配置檔案具體配置的，比如采用什麼插件，結果存儲方... 更多JSpider資訊

網絡爬蟲程式 NWebCrawler

NWebCrawler是一款開源的C#網絡爬蟲程式

83款網絡爬蟲開源軟體 - 小采采
更多NWebCrawler資訊

web爬蟲 Heritrix

Heritrix是一個開源，可擴充的web爬蟲項目。使用者可以使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt檔案的排除訓示和META robots标簽。其最出色之處在于它良好的可擴充性,友善使用者實作自己的抓取邏輯。 Heritrix是一個爬蟲架構，其組織結...

更多Heritrix資訊

Web爬蟲架構 Scrapy

Scrapy 是一套基于基于Twisted的異步處理架構，純python實作的爬蟲架構，使用者隻需要定制開發幾個子產品就可以輕松的實作一個爬蟲，用來抓取網頁内容以及各種圖檔，非常之友善～更多Scrapy資訊

最近更新：使用 Scrapy 建立一個網站抓取器釋出于 6個月前

垂直爬蟲 webmagic

webmagic的是一個無須配置、便于二次開發的爬蟲架構，它提供簡單靈活的API，隻需少量代碼即可實作一個爬蟲。以下是爬取oschina部落格的一段代碼： Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).t...

更多webmagic資訊

最近更新：WebMagic 0.5.2釋出，Java爬蟲架構釋出于 1個月前

OpenWebSpider

OpenWebSpider是一個開源多線程Web Spider（robot：機器人，crawler：爬蟲)和包含許多有趣功能的搜尋引擎。

更多OpenWebSpider資訊

Java多線程Web爬蟲 Crawler4j

Crawler4j是一個開源的Java類庫提供一個用于抓取Web頁面的簡單接口。可以利用它來建構一個多線程的Web爬蟲。示例代碼： import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j資訊

網頁抓取／資訊提取軟體 MetaSeeker

網頁抓取/資訊提取/資料抽取軟體工具包MetaSeeker (GooSeeker) V4.11.2正式釋出，線上版免費下載下傳和使用，源代碼可閱讀。自推出以來，深受喜愛，主要應用領域：垂直搜尋（Vertical Search）：也稱為專業搜尋，高速、海量和精确抓取是定題網絡爬蟲DataScrap... 更多MetaSeeker資訊

Java網絡蜘蛛/網絡爬蟲 Spiderman

Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基于微核心+插件式架構的網絡蜘蛛，它的目标是通過簡單的方法就能将複雜的目标網頁資訊抓取并解析為自己所需要的業務資料。主要特點 * 靈活、可擴充性強，微核心+插件式架構，Spiderman提供了多達 ... 更多Spiderman資訊

網頁爬蟲 Methanol

Methanol 是一個子產品化的可定制的網頁爬蟲軟體，主要的優點是速度快。更多Methanol資訊

網絡爬蟲/網絡蜘蛛 larbin

larbin是一種開源的網絡爬蟲/網絡蜘蛛，由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴充的抓取，最後為搜尋引擎提供廣泛的資料來源。Larbin隻是一個爬蟲，也就是說larbin隻抓取網頁，至于如何parse的事情則由使用者自己... 更多larbin資訊

爬蟲小新 Sinawler

國内第一個針對微網誌資料的爬蟲程式！原名“新浪微網誌爬蟲”。登入後，可以指定使用者為起點，以該使用者的關注人、粉絲為線索，延人脈關系搜集使用者基本資訊、微網誌資料、評論資料。該應用擷取的資料可作為科研、與新浪微網誌相關的研發等的資料支援，但請勿用于商... 更多Sinawler資訊

【免費】死連結檢查軟體 Xenu

Xenu Link Sleuth 也許是你所見過的最小但功能最強大的檢查網站死連結的軟體了。你可以打開一個本地網頁檔案來檢查它的連結，也可以輸入任何網址來檢查。它可以分别列出網站的活連結以及死連結，連轉向連結它都分析得一清二楚；支援多線程，可以把檢查結...

更多Xenu資訊

Web-Harvest

Web-Harvest是一個Java開源Web資料抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的資料。Web-Harvest主要是運用了像XSLT,XQuery,正規表達式等這些技術來實作對text/xml的操作。

更多Web-Harvest資訊

網頁抓取工具 PlayFish

playfish 是一個采用java技術，綜合應用多個開源java元件實作的網頁抓取工具，通過XML配置檔案實作高度可定制性與可擴充性的網頁抓取工具應用開源jar包包括httpclient(内容讀取),dom4j（配置檔案解析）,jericho（html解析），已經在 war包的lib下。這個

易得網絡資料采集系統

本系統采用主流程式設計語言php和mysql資料庫，您可以通過自定義采集規則，或者到我的網站下載下傳共享的規則，針對網站或者網站群，采集您所需的資料，您也可以向所有人共享您的采集規則哦。通過資料浏覽和編輯器，編輯您所采集的資料。本系統所有代碼完全開源，...

更多易得網絡資料采集系統資訊

網頁爬蟲 YaCy

YaCy基于p2p的分布式Web搜尋引擎.同時也是一個Http緩存代理伺服器.這個項目是建構基于p2p Web索引網絡的一個新方法.它可以搜尋你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式Crawling等. 更多YaCy資訊

最近更新： YaCy 1.4 釋出，分布式Web搜尋引擎釋出于 1年前

Web爬蟲架構 Smart and Simple Web Crawler

Smart and Simple Web Crawler是一個Web爬蟲架構。內建Lucene支援。該爬蟲可以從單個連結或一個連結數組開始，提供兩種周遊模式：最大疊代和最大深度。可以設定過濾器限制爬回來的連結，預設提供三個過濾器ServerFilter、BeginningPathFilter和 RegularE... 更多Smart and Simple Web Crawler資訊

Web爬蟲程式 CrawlZilla

crawlzilla 是一個幫你輕鬆建立搜尋引擎的***軟體，有了它，你就不用依靠商業公司的收尋引擎，也不用再煩惱公司內部網站資料索引的問題由 nutch 專案為核心，並整合更多相關套件，並開發設計安裝與管理UI，讓使用者更友善上手。 crawlzilla 除了爬取基本... 更多CrawlZilla資訊

簡易HTTP爬蟲 HttpBot

HttpBot 是對 java.net.HttpURLConnection類的簡單封裝，可以友善的擷取網頁内容，并且自動管理session，自動處理301重定向等。雖然不能像HttpClient那樣強大，支援完整的Http協定，但卻非常地靈活，可以滿足我目前所有的相關需求。... 更多HttpBot資訊

新聞采集器 NZBGet

NZBGet是一個新聞采集器，其中從新聞討論區下載下傳的資料格式為nzb檔案。它可用于單機和伺服器/用戶端模式。在獨立模式中通過nzb檔案作為參數的指令行來下載下傳檔案。伺服器和用戶端都隻有一個可執行檔案”nzbget”。功能和特點控制台界面，使用純文字，彩色文字或... 更多NZBGet資訊

網頁爬蟲 Ex-Crawler

Ex-Crawler 是一個網頁爬蟲，采用 Java 開發，該項目分成兩部分，一個是守護程序，另外一個是靈活可配置的 Web 爬蟲。使用資料庫存儲網頁資訊。更多Ex-Crawler資訊

招聘資訊爬蟲 JobHunter

JobHunter旨在自動地從一些大型站點來擷取招聘資訊，如chinahr,51job,zhaopin等等。JobHunter 搜尋每個工作項目的郵件位址，自動地向這一郵件位址發送申請文本。更多JobHunter資訊

網頁爬蟲架構 hispider

HiSpider is a fast and high performance spider with high speed 嚴格說隻能是一個spider系統的架構, 沒有細化需求, 目前隻是能提取URL, URL排重, 異步DNS解析, 隊列化任務, 支援N機分布式下載下傳, 支援網站定向下載下傳(需要配置hispiderd.ini whitelist). 特征... 更多hispider資訊

Perl爬蟲程式 Combine

Combine 是一個用Perl語言開發的開放的可擴充的網際網路資源爬蟲程式。更多Combine資訊
web爬蟲 jcrawl

jcrawl是一款小巧性能優良的的web爬蟲,它可以從網頁抓取各種類型的檔案,基于使用者定義的符号,比如email,qq. 更多jcrawl資訊

分布式網頁爬蟲 Ebot

Ebot 是一個用 ErLang 語言開發的可伸縮的分布式網頁爬蟲，URLs 被儲存在資料庫中可通過 RESTful 的 HTTP 請求來查詢。

更多Ebot資訊

多線程web爬蟲程式 spidernet

spidernet是一個以遞歸樹為模型的多線程web爬蟲程式, 支援text/html資源的擷取. 可以設定爬行深度, 最大下載下傳位元組數限制, 支援gzip解碼, 支援以gbk(gb2312)和utf8編碼的資源; 存儲于sqlite資料檔案. 源碼中TODO:标記描述了未完成功能, 希望送出你的代碼....

更多spidernet資訊

ItSucks

ItSucks是一個java web spider（web機器人，爬蟲）開源項目。支援通過下載下傳模闆和正規表達式來定義下載下傳規則。提供一個swing GUI操作界面。

更多ItSucks資訊

網頁搜尋爬蟲 BlueLeech

BlueLeech是一個開源程式，它從指定的URL開始，搜尋所有可用的連結，以及連結之上的連結。它在搜尋的同時可以下載下傳遇到的連結所指向的所有的或預定義的範圍的内容。更多BlueLeech資訊

URL監控腳本 urlwatch

urlwatch 是一個用來監控指定的URL位址的 Python 腳本，一旦指定的 URL 内容有變化時候将通過郵件方式通知到。基本功能配置簡單，通過文本檔案來指定URL，一行一個URL位址； Easily hackable (clean Python implementation) Can run as a cronjob and m... 更多urlwatch資訊

最近更新： urlwatch 1.8 釋出釋出于 4年前

Methabot

Methabot 是一個經過速度優化的高可配置的 WEB、FTP、本地檔案系統的爬蟲軟體。更多Methabot資訊
web 搜尋和爬蟲 Leopdo

用JAVA編寫的web 搜尋和爬蟲，包括全文和分類垂直搜尋，以及分詞系統更多Leopdo資訊

Web爬蟲工具 NCrawler

NCrawler 是一個Web Crawler 工具，它可以讓開發人員很輕松的發展出具有Web Crawler 能力的應用程式，并且具有可以延展的能力，讓開發人員可以擴充它的功能，以支援其他類型的資源（例如PDF /Word/Excel 等檔案或其他資料來源）。 NCrawler 使用多執行緒（... 更多NCrawler資訊

Ajax爬蟲和測試 Crawljax

Crawljax: java編寫，開放源代碼。 Crawljax 是一個 Java 的工具用于自動化的爬取和測試現在的 Ajax Web 應用。

83款 網絡爬蟲開源軟體 - 小采采