网站爬取工具（介绍一些比较方便好用的爬虫工具和服务）|快速备案

在之前介绍过很多爬虫库的使用，其中大多数也是 Python 相关的，当然这些库很多都是给开发者来用的。但这对一个对爬虫没有什么开发经验的小白来说，还是有一定的上手难度的。现在市面上其实也出现了非常多的爬虫服务，如果你仅仅是想爬取一些简单的数据的话，或者懒得写代码的话，其实利用这些工具还是可以非常方便地完成爬取的，那么本文就来总结一下一些比较实用的爬取服务和工具，希望在一定程度上能够帮助你摆脱数据爬取的困扰。下面总结的一部分工具其实都算是一些爬虫工具的高层封装、实用工具甚至是一些完善的商业服务，包括国内的和国外的。工具&服务列表Chrome 扩展Web Scraper：http://webscraper.io/Data Scraper：https://data-miner.io/Listly：https://listly.io/Mercury：https://mercury.postlight.com/框架Scrapy：https://scrapy.org/PySpider：https://github.com/binux/pyspiderApify：https://sdk.apify.com/商业服务Parsehub：https://www.parsehub.com/Dexi.io：https://dexi.io/Octparse：https://www.octoparse.com/Content Grabber：http://www.contentgrabber.com/Mozenda：https://www.mozenda.com/ScraperAPI：https://www.scraperapi.com/Diffbot：https://www.diffbot.com/Import.io：https://www.import.io/Embed.ly https://embed.ly/ScrapeStorm https://www.scrapestorm.com/Shenjianshou https://www.shenjian.io/Zaoshu https://zaoshu.io/下面来对这些工具和服务进行简单的介绍和总结。Web Scraper它是一个独立的 Chrome 扩展，安装数目已经到了 20w。它支持点选式的数据抓取，另外支持动态页面渲染，并且专门为 JavaScript、Ajax、下拉拖动、分页功能做了优化，并且带有完整的选择器系统，另外支持数据导出到 CSV 等格式。另外它们还有自己的 Cloud Scraper，支持定时任务、API 式管理、代理切换功能。Web Scraper官网：https://www.webscraper.io/Data ScraperData Scraper 同样是一个 Chrome 扩展，它可以将单个页面的数据通过点击的方式爬取到 CSV、XSL 文件中。在这个扩展中已经预定义了 5w 多条规则，可以用来爬取奖金 1.5w 个热门网站。不过这个扩展的使用是有限制的，免费版本每个月只能爬取 500 个页面，更多则需要付费。Data Scraper官网：https://data-miner.io/Listly这同样是一个 Chrome 插件，它可以快速地将网页中的数据进行提取，并将其转化为 Excel 表格导出，操作非常便捷。比如获取一个电商商品数据，文章列表数据等，使用它就可以快速完成。另外它也支持单页面和多页面以及父子页面的采集，值得一试。Data Scraper官网：https://listly.io/Mercury这是一个开源的提供自动化解析的工具，使用 JavaScript 编写，同时还提供了 Chrome 扩展工具。利用它我们可以完成页面的智能解析，如自动提取文章标题、正文、发布时间等内容。另外它开放了源代码，放在了 GitHub，我们可以直接安装使用，使用命令行即可完成页面的智能解析，速度还非常快。Data Scraper官网：https://mercury.postlight.com/Scrapy这可能是 Python 爬虫学习者使用最多的爬虫框架了，利用这个框架我们可以快速地完成爬虫的开发。而且框架本身性能卓越、可配置化极强，另外开发者社区十分活跃，并且 Scrapy 具有配套的各种插件，几乎可以实现任何站点的爬取逻辑，强烈推荐。Scrapy官网：https://scrapy.org/PySpiderPySpider 是一个基于 Python 开发的爬虫工具，它带有可视化的管理工具，并且可以通过在线编程的方式完成爬虫的创建和运行。另外它还支持分布式爬取，并支持存储到各种数据库。由于是代码来实现编程，因此其可扩展性还是很强的，简单易用。PySpiderGitHub：https://github.com/binux/pyspiderApify它是一个基于 Node.js 开发的爬虫库，由于是 JavaScript 编写，因此它对 JavaScript 渲染页面的爬取是完全支持的，对接了 Puppeteer、Cheerio。另外其可定制化也非常强，支持各种文件格式的导出，并且支持和 Apify Cloud 的对接实现云爬取。Apify官网：https://sdk.apify.com/ParsehubParseHub 是一个基于 Web 的抓取客户端工具，支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等机制，该应用程序可以分析和从网站获取数据并将其转换为有意义的数据。它还可以使用机器学习技术识别复杂的文档，并能导出为 JSON、CSV、Google 表格等格式的文件。Parsehub 支持 Windows，Mac 和 Linux，而且可用作Firefox扩展。另外它还支持一些高级功能，如分页，无限滚动页面，弹出窗口和导航。另外还可以将 ParseHub 中的数据可视化为 Tableau。当然这个也收费的，免费版本限制为 5 个项目，每次限制爬取 200 页。如果付费订阅可以获得 20 个私有项目，每次抓取 10000 个页面，而且支持高级版的 IP 代理切换等功能。官网：https://www.parsehub.comDexi.ioDexi.io，之前称为 CloudScrape。它是一个爬虫的商业服务，它支持可视化点击抓取，而且配有自然语言解析工具使得解析更为精准，所有的抓取配置都在网页端完成，并且可以通过控制台来完成任务的运行和调度。另外它还提供许多代理 IP，还与第三方记性了集成，包括 Box.net、Google Drive 等工具。这也是收费的，收费标准版是 119 美刀一个月，支持一个 Worker 和基础服务，另外还有更高级别的服务。不过支持免费试用。Dexi.io官网：https://dexi.io/Octparse也是一个可视化爬虫工具，支持在网页上进行可视化点选，并且也支持常见的 JavaScript 渲染、Ajax 爬取等等，同样是在云端运行和控制，另外提供了代理服务。免费版支持创建 10 个爬取，但是提供了最基础的服务，如果想要提供更多的服务如代理切换，则需要购买付费版本，标准版是 75 美金一个月。Dexi.io官网：https://www.octoparse.com/Content GrabberContent Grabber 同样也是一个可视化的爬虫工具，同样支持可视化点选，支持 JavaScript 渲染、Ajax 爬取等功能，另外还有验证码识别等解决方案，并使用 Nohodo 作为 IP 代理。数据支持导出常用格式，也支持 PDF 格式导出。Centent Grabber官网：http://www.contentgrabber.com/MozendaMozenda 类似，也是基于一个云端爬虫服务，同样支持可视化点选操作。它由两个部分组成，一部分是用来完成数据提取功能，另一部分是 Web 控制台来运行和控制各个爬虫服务。另外它还提供了 FTP、亚马逊 S3、Dropbox 等的支持。Mozenda官网：https://www.mozenda.com/ScraperAPI这个站点提供了简易的页面渲染服务，站如其名，其爬取结果都是通过 API 来操作的。该站点提供了许多渲染引擎，我们通过调用提供的 API 并传以不同的参数就可以完成页面的渲染，类似于 Splash。Mozenda官网：https://www.scraperapi.com/DiffbotDiffbot 是一个提供智能化解析的站点。例如一个新闻页面，我们不再需要规则即可完成对其中内容的提取，例如标题、正文、发布时间等等。它通过一些机器学习算法、图像识别、自然语言处理等方案综合解析，可以说是目前业界数一数二的页面智能解析方案提供商。Mozenda官网：https://www.diffbot.com/Import.ioImport.io 可以说不仅仅是一个提供爬虫服务的网站了，它提供了从数据爬取、清洗、加工到应用的一套完整解决方案，涉及到零售与制造业、数据爬取与加工、机器学习算法、风控等等方案。Import.io官网：https://www.import.io/Embed.ly其实 Embed.ly 是提供了自动获取图像，视频，民意调查，幻灯片，音乐，实时视频，表格，GIF，图表等功能的服务，其中和爬虫相关的就是页面解析了。它提供了智能化页面解析方案，类似 Diffbot，可以自动完成页面的解析。Embed.ly官网：https://embed.ly/ScrapeStorm这个网站提供了一个可视化爬虫工具，支持 Mac、Windows、Linux，工具十分强大，支持自动识别翻页、自动识别内容，另外支持 JavaScript 渲染，另外支持模拟登录爬取等等。然而我下载下来之后使用了一下，里面居然是后裔采集器？看来是这个站点盗用了了后裔采集器的源码吧。Embed.ly官网：https://www.scrapestorm.com/Shenjianshou神箭手，这可以说是国内做的数一数二的爬虫平台了，后台的爬虫使用 JavaScript 编写，支持可视化点选、代码编写，另外提供云端爬取，提供了验证码识别、分布式爬取、JavaScript 渲染等功能。另外神箭手还提供了规则市场、数据标注还有数据 API 服务，，目前还上市了机器学习相关的服务，目前也正朝着智能化发展中。另外神箭手旗下有一款后裔采集器，就是上文介绍的 ScrapeStorm 所采用的爬取工具，功能很强大，支持智能解析，值得一试。Embed.ly官网：https://www.shenjian.ioBazhuayu八爪鱼采集器，可以说是国内比较知名的一款采集器了，功能类似后裔采集器，可以通过可视化点选完成爬虫的相关配置，部分功能比后裔采集器更加强大。另外官方也提供了规则市场，获取规则以快速完成数据的爬取而不用关心爬取的逻辑。Embed.ly官网：http://www.bazhuayu.com/Zaoshu是一家数据爬取服务提供商，不过目前已经不面向于个人用户，主要是提供企业数据服务，其也提供了可视化点选数据爬取服务，也可以通过一些配置完成复杂页面的采集。Zaoshu官网：https://zaoshu.io/崔庆才静觅博客博主，《Python3网络爬虫开发实战》作者个人公众号：进击的Coder

相关文章