larbin

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

Web-Harvest

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了XSLT、XQuery、正则表达式等技术来实现对text/xml的操作。其授权协议为BSD。

Xenu

Xenu Link Sleuth 也许是你所见过的最小但功能最强大的检查网站死链接的软件了。你可以打开一个本地网页文件来检查它的链接,也可以输入任何网址来检查。它可以分别列出网站 的活链接以及死链接,连转向链接它都分析得一清二楚;支持多线程 ,可以把检查结果存储成文本文件或网页文件。

YaCy

"基于p2p的分布式开源web搜索引擎系统,使用java;其核心是分布在数百台计算机上的被称为YaCy-peer的计算机程序,基于p2p网络构成了YaCy网络,整个网络是一个分散的架构,所有的peer处于对等的地位,没有统一的中心服务器,每个peer独立地进行互联网的爬行抓取,分析及建立索引库,并通过p2p网络进行共享;而且每个peer又都是一个独立的代理服务器,能够对本机使用的网页进行索引,采用多种机制保护用户的隐私,也通过本机运行的web服务器进行查询和返回结果。

combine

Combine 是一个用Perl语言开发的开放的可扩展的互联网资源爬虫程序。

Chukwa
暂无描述。。。