您的位置:首页 >互联网 >正文

教大家八爪鱼采集器自定义怎么用的方法

近日有关于教大家八爪鱼采集器自定义怎么用的方法的问题受到了很多网友们的关注,大多数网友都想要知道教大家八爪鱼采集器自定义怎么用的方法的具体情况,那么关于到教大家八爪鱼采集器自定义怎么用的方法的相关信息,小编也是在网上进行了一系列的信息,那么接下来就由小编来给大家分享下小编所收集到与教大家八爪鱼采集器自定义怎么用的方法相关的信息吧(以下内容来自于网络非小编所写,如有侵权请与站长联系删除)

步骤一

首先还是照旧,启动并登入你的八爪鱼采集器,进入到主界面,点击【新建】下的【新建任务组】创建一个新的组。

点击确定创建新组

步骤二

创建好组后,点击【新建】下的自定义任务,就会到这样一个界面。

我们可以去寻找想要爬取的网页的链接,这里小编到京东搜索了手机,等搜索结果出来,就可以复制链接。

将我们复制的链接粘贴到网址一栏中,并将任务组改成先前创建的组,然后点击【保存设置】。

步骤三

保存设置后,便会跳转到爬取界面,软件会自动开始识别网页中要爬取的部分,根据个人机器网速不同,相应的等待时间也不同。

识别完成后,我们可以看到有许多数据,其中有许多无用的数据,需要我们剔除。

将光标移动到表格字段上,会出现两个图标,笔图标为更改字段名,垃圾桶为删除此字段。

我们可以自由的删除,更改字段名,这里小编仅保留上图内字段。

步骤四

设置好字段后,我们把目光转到上图内的小框中,首个不可选,我们直接忽视。

采集前滚动页面加载更多数据:因为现在很多网站都采用的是动态页面,有些内容不会在加载的时候展示,只有当我们下拉时才会逐渐展示出来,而这个功能就是为了防止这个情况出现。

翻页并采集多页数据:设置爬取多页,不勾选仅爬取当前页。

点击列表中XXX并采集下一级页面:这个功能可以让我们爬取子页面内的内容。

这里我们不深入爬取,只勾选前两项,然后点击【生成采集设置】。

点击生成后,会让你开始保存或查看,这里点击保存并开始采集。

步骤五

到了这个界面后,我们可以看到一个细致的流程,内循环列表中就是本页内爬取的内容。

我们点击外循环的设置按钮。

展开退出循环设置,勾选循环执行次数,这里我们仅爬

取3页。

开始采集

采集完成,点击导出。

另外,如果你爬取的页面内有重复数据,软件也会直接提示,根据自己情况选择保留或去除。

导出方式

导出文件的保存位置

保存完成

查看数据

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。