WebKit

WebKit是一个开源的web浏览器引擎。同时WebKit也是苹果Mac OS X系统引擎框架版本的名称,主要用于Safari、Dashboard、Mail和其他一些Mac OS X程序。WebKit 还支持移动设备和手机,包括iPhone和Android手机都是使用WebKit做为浏览器的核心。

jsoup

jsoup 是一款基于Java开发 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。主要功能如下:从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器来查找、取出数据;可操作HTML元素、属性、文本;jsoup是基于MIT协议发布的,可放心使用于商业项目。

Gumbo

Gumbo是Google公司的一款用C语言实现的HTML5解析库,无需任何外部依赖。其主要特征包括:功能强大,可处理一些不规范的HTML标签;简单的API;支持源位置和指针回到原始文本;轻巧、没有外部依赖;通过html5lib-0.95兼容测试;已在超过25亿个来自谷歌索引的页面中进行过测试。

Streaming HTML parser

Streaming HTML parser 是一个 C 语言的 HTML 解析器。

HtmlAgilityPack

Html Agility Pack 是CodePlex上的一个开源项目。它提供了标准的DOM API和XPath导航--即使 HTML 不是适当的格式!

NekoHTML

"NekoHTML是一个简单的HTML扫描器和标签补全器

htmlcxx

HtmlCxx是一款简洁的非验证式的用C++编写的css1和html解析器。

HTMLparser

htmlparser是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,即是一个对HTML进行分析的快速实时的解析器。它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0,是目前最好的html解析和分析的工具。

afterwork

afterwork 是一个 基于C# 语言开发商用来解析 HTML 文档的开发包。授权协议为BSD

PHP Simple HTML DOM Parser

PHP Simple HTML DOM Parser是一个 PHP5 开发的跨平台的 HTML 文档解析器。