已选Tag

关联Tag

OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

Web Crawler index search spider engine search-engine searchengine openwebspider robot web-spider webspider
Grub Next Generation

Grub Next Generation是一个分布式的网页爬虫系统,支持Windows和Linux操作系统,它包含客户端和服务器可以用来维护网页的索引。

Crawler distributed search-engine indexing
Lucene

Lucene是一个高性能的全文检索引擎库,提供了一个简单却强大的API,使得开发者可以在应用程序中轻松实现全文检索功能,或者以此为基础建立完整的全文检索引擎。

Lucene最初是由Doug Cutting开发的,在2000年3月发布了第一个开源版本0.01,并于2000年10月发布了1.0正式版,2001年9月Lucene加入Apache软件基金会,成为Jakarta项目的一个子项目。

与同类产品相比,Lucene的优势包括:独立于应用平台的索引文件格式、分块索引、优秀的面向对象系统架构、独立于语言和文件格式的文本分析接口、强大的查询引擎等。

开发语言:Java

java Apache index search lucene Documents search-engine indexing information_retrieval search_engine fulltext-search searchengine indexer apache-software-foundation
Sphinx

Sphinx是一个全文搜索引擎,可以结合MySQL、PostgreSQL做全文搜索,使应用程序更容易实现专业化的全文检索。Sphinx为PHP、Python、Perl、Ruby等一些脚本语言设计搜索API接口,同时为MySQL也设计了一个存储引擎插件。

search search-engine indexing information_retrieval search_engine fulltext-search searchengine indexer
compass

Compass是一个样式表编辑框架,可以让开发者更加简单地编写样式表,也可以直接使用Sass来编写样式,而不是CSS,使得样式表更加容易维护。最早的版本由Chris Eppstein于2009年4月发布。

开发语言: SASS

java search lucene compass search-engine search_engine searchengine
Sphider

"Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。Sphider非常小

php search spider search-engine indexing search_engine fulltext-search searchengine search_engines
Nutch

"Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求

java Apache search lucene search-engine
Xapian

Xapian是一个用C++编写的全文检索程序,作用类似于Java的lucene。Xapian是原生支持C/C++的,并且他能够支持php、python等语言的动态绑定。

search search-engine indexing information_retrieval search_engine fulltext-search searchengine
Smart and Simple Web Crawler

Smart and Simple Web Crawler是一个集成Lucene支持的Web爬虫框架。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认提供三个过滤器,分别是:ServerFilter、BeginningPathFilter和 RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。

java Crawler seo search sitemap search-engine
Apache Nutch

Apache Nutch是一个Apache授权的搜索引擎。

java Apache search lucene search-engine