IK Analyzer

IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。新版本的IKAnalyzer3.0发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

OpenNLP

OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等。

mmseg4j

mmseg4j 是基于Java开发的跨平台的中文分词器,用 Chih-Hao Tsai 的 MMSeg 算法实现的,并实现 lucene 的 analyzer 和 solr 的 TokenizerFactory 以方便在Lucene和Solr中使用。

盘古分词

盘古分词是一个基于 .net framework 的中英文分词组件。

FudanNLP

FudanNLP是基于Java开发的跨平台的中文自然语言处理工具包,也包含为实现这些任务的机器学习算法和数据集。目前实现的内容如下:中文处理工具;信息检索;机器学习。

jieba-analysis
暂无描述。。。
rmmseg-cpp
暂无描述。。。
phpcws
暂无描述。。。
ICTCLAS

"中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。"

Alpaca

羊驼!是一个开源的轻量级树状 CMS 系统。它基于 php + mysql 开发,并使用 b2core? 为底层MVC架构。