网页数据抓取工具:新媒体运营快速上手爬虫工具 Web Scraper 实用教程!
1970-01-01 来源:

做新媒体运营,很多时候会需要用到数据来帮助工作,比如你新进到一家公司做新媒体内容编辑,那你需要盘点公司已有的内容资产,避免重复生产内容。这时候就需要把网页上的数据给扒下来,放在一起,才会一目了然。
从网页上扒数据,最好用的方法当然是爬虫工具啦。很多人都以为爬虫很难学吧?我一开始也这么认为的,直到我遇到了 Web Scraper 这个运营工具,才知道原来爬网页数据也可以这么简单。
下面,我就现身说法,讲解一个小白是怎么快速上手 Web Scraper 的。
步骤一:下载 Web Scraper
Web Scraper 是 Chrome 浏览器上的一个插件,你需要翻墙进入 Chrome 应用商店,下载 Web Scraper 插件。
步骤二:打开 Web Scraper
先打开一个你想爬数据的网页,比如我想爬今日头条上「吴晓波频道」这个账户的文章标题、时间、评论数,那我就先打开它,再一一进行操作。
然后用快捷键 Ctrl + Shift + I / F12 打开 Web Scraper。
步骤三:新建一个 Sitemap
点击 Create New Sitemap,里面有两个选项,import sitemap是指导入一个现成的 sitemap,咱小白一般没有现成的,所以一般不选这个,选create sitemap 就好。然后进行这两个操作:
步骤四:设置这个 Sitemap
整个 Web Scraper 的抓取逻辑是这样:设置一级 Selector,选定抓取范围;在一级 Selector 下设置二级 Selector,选定抓取字段,然后抓取。
咱们换个接地气的例子,假如你要获取福建人的姓名、性别和年龄这三个要素,那么你得这么做:首先要定位到福建省,然后再在福建省里面去定位姓名、性别、年龄。
在这里,一级 Selector 表示你要在中国这个大的国家圈出福建省,二级Selector 表示你要在福建省的人口中圈定姓名、性别、年龄这三个要素。
对于文章而言,一级 Selector 就是你要把这一块文章的要素圈出来,这个要素可能包含了 标题、作者、发布时间、评论数等等,然后我们再在二级 Selector 中挑出我们要的要素,比如标题、作者、阅读数。
下面我们来拆解这个设置一级、二级 Selector 的工作流:
1. 点击 Add new selector 创建一级 Selector,按照以下步骤操作:
2. 点击 select 选择范围,按照以下步骤操作:
3. 设置好了这个一级的 Selector 之后,点进去设置二级的 Selector,按照以下步骤操作:
4. 点击 select,再点击你要爬取的字段,按照以下步骤操作:
5. 重复以上操作,直到选完你想爬的字段。
步骤五:爬取数据
之所以说 Web Scraper 是傻瓜式爬虫工具,就是因为只需要设置完所有的 Selector,就可以开始爬数据了,怎么样,是不是简单?
那么怎么开始爬数据呢?只需要一个简单的操作:点击 Scrape,然后点Start Scraping,会弹出一个小窗,然后辛勤的小爬虫就开始工作了。你会得到一个列表,上面有你想要的所有数据。
如果你希望把这些数据做一个排序,比如按照阅读量、赞数、作者等指标排序,让数据更一目了然,那么你可以点击 Export Data as CSV,把它导入 Excel 表里。
导入 Excel 表格之后,你就可以对数据进行筛选了。
以上就是快速上手 Web Scraper 的所有操作过程,连我这种懒癌 + 手残都能在 5 分钟之内搞定,相信你也可以指哪儿爬哪儿,完全 OK 的啦。
作者:BPteach
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。