网页数据爬取工具-打造轻量级可视化数据爬取工具-菩提-起源网创项目

作者：jiaqiangwang，腾讯 IEG 后台开发工程师

背景

在大数据及机器学习日益火爆的今天，数据作为基石发挥了至关重要的作用。网页内容爬取作为数据的一个重要补充来源，数据爬取开发成了一个必不可少的工作。

在业界，普遍的做法是采用 scrapy 等框架不断进行 case by case 的爬取代码编写，这种做法在需求量逐渐增大后会出现大量重复工作、大量针对某个网站或需求开发的特殊逻辑等，导致技术不能持续积累沉淀、开发耗时长、维护压力越来越大。

我们在调研了业界最新动态后，决定开发一款轻量级的可视化定向数据爬取工具来解决上述问题。我们将它命名 bodhi，中文名：菩提，寓意在“菩提本无数(据)”。

本文只是提供一种思路、一种工具，使用者自身需要合规使用。

同类工具一览

在数据爬取领域，可供选择的工具非常多，比如以 scrapy 为代表的开源工具包、以 portia、八爪鱼为代表的可视化数据爬取工具；

下面我们从是否需要使用者有技术背景、是否支持动态网页、是否免费、是否开源、是否能够灵活支持需求、是否轻量级应用几个方面对上面列举的工具进行对比。

注：以上对比基于当前最新版本，其中，scrapy 1.74, portia 2.08, 八爪鱼 8.0。

scrapy 是一个非常优秀的开源框架，但是需要编码，使用技术门槛较高，跟我们的初衷不符；

portia 是应该是第一个开源的可视化 web 数据爬取工具，想法非常好，但是仅支持静态网页，没有对动态网页提供支持，在几乎全是动态网页的今天明显不能完成大多数页面的提取；

八爪鱼是国内使用量最大的商业数据爬取工具之一，提供客户端，其免费版无法做到大规模、7*24 小时的持续爬取，无法满足工业化应用；

为了更快更好的支撑业务上不断增长的需求，我们期望有一个适配性很广，能够大规模不间断爬取数据的工具帮我们解决工作中遇到的问题。2018 年底，在公司内外没有找到一个可以充分满足需求的数据爬取工具的情况下，我们在充分调研了 portia 和八爪鱼后，期望能够自研一款可以支持浏览器即开即用的、低技术门槛、能够支持绝大多数需求、成熟后能够开源的可视化网页数据爬取工具。

技术选型

我们明确了目标：轻量、低门槛、通用性强的网页数据爬取工具。

轻量：我们抛弃客户端，采用网页来实现即开即用；将功能边界限定到只做网页文字的下载功能，放弃不必要的周边功能使其更加简洁；

低门槛：尽量模拟人们在浏览网页时的使用习惯完成配置，做到产品同学可以自行完成需求开发；

通用性强：采用无头浏览器模拟 web 浏览器，整体上比 http 请求更通用。

bodhi 工具简介

bodhi(菩提)是一款可视化的数据爬取工具，力求让用户通过模拟日常浏览网页习惯就可以在网页上提取自己所需要的数据。

人类在上网时主要通过鼠标的点击、滚动以及键盘的输入来完成页面浏览，大家已经习惯这种使用方式，我们在这基础上进行抽象总结，除了提供基础的点击、滚动、输入动作，还提供了更高级的选择相似元素、提取内容、翻页等操作方便用户更加便捷的完成任务配置；

bodhi 采用流程图模式，大多数情况下，用户不需要对流程图进行直接操作网页数据爬取工具，流程图更多的是作为一个可视化的配置，用户可以通过可视化的点选网页上的元素来完成后续操作，完全符合人工浏览网页的思维习惯。

这里通过一些关键词介绍一下 bodhi，具体的技术细节由于篇幅有限这里不会展开。

嵌入式页面

我们采用 B/S 架构，需要在我们的页面内嵌欲爬取的页面，这里我们并没有采用 iframe 直接嵌入页面，因为这样做，一方面有些网站不能直接通过 iframe 打开，另一方面如果使用 iframe，用户在 iframe 中进行点击（比如打开另一个网页）、输入会产生不可控的行为。