已选Tag

关联Tag

OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

Web Crawler index search spider engine search-engine searchengine openwebspider robot web-spider webspider
Grub Next Generation

Grub Next Generation是一个分布式的网页爬虫系统,支持Windows和Linux操作系统,它包含客户端和服务器可以用来维护网页的索引。

Crawler distributed search-engine indexing
Crawler4j

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。

Web java Crawler opensource multi-threaded webcrawler
Ex-Crawler

Ex-Crawler 是一个基于Java开发的跨平台的网页爬虫,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。授权协议为GPLv3

java php Crawler mysql postgresql search daemon engine webcrawler crawling webcrawl volunteercomputing postgre
Apache ManifoldCF

"Apache ManifoldCF 提供一个开源框架,用于连接源内容库,如:Microsoft Sharepoint、EMC Documentum等, 到目标库或索引, 如Apache Solr、Open Search Server或ElasticSearch等。Apache ManifoldCF也为目标库定义了一个安全模型允许执行源库的安全策略。"

Crawler tools ecm indexing searchengine enterprisesearch
Smart and Simple Web Crawler

Smart and Simple Web Crawler是一个集成Lucene支持的Web爬虫框架。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认提供三个过滤器,分别是:ServerFilter、BeginningPathFilter和 RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。

java Crawler seo search sitemap search-engine
curl-loader

curl-loader(也被称为“omes-NIK”和“davilka”)是一个开源的C语言编写的工具,模拟应用负载和成千上万的几十万人的HTTP / HTTPS和FTP/ FTPS的客户端应用程序的行为,每个有其自己的源IP地址。相反,其他curl-loader使用真正的C编写的客户端协议栈,即libcurl和TLS/ openssl的SSL的HTTP和FTP协议栈,支持登录和验证口味和模拟用户行为的工具。

Crawler testing http performance load spider webtest stress load-testing stress-testing loadtesting loadtest performance-testing libcurl link-checker
hispider

"hispider是一个快速和高性能的网页爬虫框架,严格说只能是一个spider系统的框架

Web Crawler framework distributed spider speed high hispider sounos