Scrapy

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

Ebot

Ebot 是一个基于 ErLang 语言开发的跨平台的可伸缩的分布式网页爬虫,URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询。授权协议为GPLv3

CrawlZilla

crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,即基于Java JavaScript SHELL开发的Web爬虫程序,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題。由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。除了爬取基本的 html 檔外,還能分析網頁上的檔案,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜尋引擎不只是網頁搜尋引擎,而是網站的完整資料索引庫,擁有中文分詞能力,讓你的搜尋更精準。crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜尋平台,

Grub Next Generation

Grub Next Generation是一个分布式的网页爬虫系统,支持Windows和Linux操作系统,它包含客户端和服务器可以用来维护网页的索引。

Sinawler

Sinawler,原名为“新浪微博爬虫”,是国内第一个针对微博数据的爬虫程序。本程序的版权归作者所有。你可以免费拷贝、分发、呈现和表演当前作品,制作派生作品,但不可以将当前作品用于商业目的。

Crawler4j

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。

Heritrix

Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

TBOX

TBOX是一个用c语言实现的多平台开发库,支持 windows、linux、mac、ios、android 以及其他嵌入式系统。

针对各个平台,封装了统一的接口,简化了各类开发过程中常用操作,使你在开发过程中,更加关注实际应用的开发,而不是把时间浪费在琐碎的接口兼容性上面,并且充分利用了各个平台独有的一些特性进行优化。

主要模块有:asio、stream、container、algorithm、xml、math、database、json、libc、libm。。。

PlayFish

playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具。