OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

Web Crawler index search spider engine search-engine searchengine openwebspider robot web-spider webspider
Lucene

Lucene是一个高性能的全文检索引擎库,提供了一个简单却强大的API,使得开发者可以在应用程序中轻松实现全文检索功能,或者以此为基础建立完整的全文检索引擎。

Lucene最初是由Doug Cutting开发的,在2000年3月发布了第一个开源版本0.01,并于2000年10月发布了1.0正式版,2001年9月Lucene加入Apache软件基金会,成为Jakarta项目的一个子项目。

与同类产品相比,Lucene的优势包括:独立于应用平台的索引文件格式、分块索引、优秀的面向对象系统架构、独立于语言和文件格式的文本分析接口、强大的查询引擎等。

开发语言:Java

java Apache index search lucene Documents search-engine indexing information_retrieval search_engine fulltext-search searchengine indexer apache-software-foundation
Sphinx 文档工具

Sphinx是一个文档生成工具,用于把reStructuredText格式的源文件生成诸如HTML、PDF、LaTex一类的格式。编辑者无须亲自处理文本的格式,程序会自动根据源文件里的设置产生格式,自动生成章节链接。Sphinx可以看做是一个把文本格式处理和文字编辑分开的工具。使用Sphinx的项目有很多,著名的包括Python、Django的文档,全部是使用Sphinx生成的。

C html python index chm latex documentation Development generator highlighter reStructuredText cross-reference links_checker
mysqlcft

MySQL在高并发连接、数据库记录数较多的情况下,SELECT ... WHERE ... LIKE '%...%'的全文搜索方式不仅效率差,而且以通配符%开头作查询时,使用不到索引,需要全表扫描,对数据库的压力也很大。MySQL针对这一问题提供了一种全文索引解决方案,这不仅仅提高了性能和效率(因为MySQL对这些字段做了索引来优化搜索),而且实现了更高质量的搜索。但是,至今为止,MySQL对中文全文索引无法正确支持。

mysql index GBK utf8 plugin fulltext chinese gb2312 mysqlcft latin1
Apache Scout

Apache Scout 旨在实现 Java API for XML Registries (JAXR) 协议的Java类库,可以使用它来与 UDDI 注册中心通讯。Apache Scout的特点有:开源,与平台无关,支持JDK1.3.1及以后版本。

python index package