HTMLparser

项目介绍:

htmlparser是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,即是一个对HTML进行分析的快速实时的解析器。它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0,是目前最好的html解析和分析的工具。

License:

GNU GENERAL PUBLIC LICENSE

链接:

暂无版本信息

讨论

同类项目

WebKit
WebKit是一个开源的web浏览器引擎。同时WebKit也是苹果Mac OS X系统引擎框架版本的名称,主要用于Safari、Dashboard、Mail和其他一些Mac OS X程序。WebKit 还支持移动设备和手机,包括iPhone和Android手机都是使用WebKit做为浏览器的核心。
jsoup
jsoup 是一款基于Java开发 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。主要功能如下:从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器来查找、取出数据;可操作HTML元素、属性、文本;jsoup是基于MIT协议发布的,可放心使用于商业项目。
Gumbo
Gumbo是Google公司的一款用C语言实现的HTML5解析库,无需任何外部依赖。其主要特征包括:功能强大,可处理一些不规范的HTML标签;简单的API;支持源位置和指针回到原始文本;轻巧、没有外部依赖;通过html5lib-0.95兼容测试;已在超过25亿个来自谷歌索引的页面中进行过测试。
Streaming HTML parser
Streaming HTML parser 是一个 C 语言的 HTML 解析器。
HtmlAgilityPack
Html Agility Pack 是CodePlex上的一个开源项目。它提供了标准的DOM API和XPath导航--即使 HTML 不是适当的格式!

相关项目

jiangfengyu / python_crawler.py
python爬虫
夜雨灬闻铃 / HTML_PARSER
基于Java语言,利用htmlparser实现简易的爬虫,抓取网页数据。

相关讨论组

该项目还没有关联的讨论组