分享:怎么用火车头采集指定特征的网址、图片 src

2018-12-08    来源:SEO研究协会网

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

分享:怎么用火车头采集指定特征的网址、图片 src


前些天用火车头从一个列表页采集一些网址,源码简化如下:

[xhtml] view plain copy

<div>

<ahref="1"mce_href="1">111</a>

</div>

<div>

<ahref="2"mce_href="2">222</a>

<imgsrc=""/>

</div>

<div>

<ahref="3"mce_href="3">333</a>

</div>

我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则:

[xhtml] view plain copy

<ahref="[参数]"mce_href="[参数]">(*)</a>

<imgsrc=""/>

却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有<a href=”[参数]“>这个特征,所以就匹配到了第一个链接上面,怎么解决呢?花了10块钱,一个兄弟帮我写了个规则:

[xhtml] view plain copy

<ahref="[参数]"mce_href="[参数]">[参数]</a>

<imgsrc=""/>

就是把模糊匹配(*)给换成了[参数],就这样简单,分享给大家。

大数据观察


本文仅代表作者个人观点,不代表SEO研究协会网官方发声,对观点有疑义请先联系作者本人进行修改,若内容非法请联系平台管理员,邮箱cxb5918@163.com。更多相关资讯,请到SEO研究协会网www.west.cn学习互联网营销技术请到巨推学院www.jutuiedu.com。

标签: seo 大数据 互联网 学习互联网

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:火车头采集器到底该如何使用?

下一篇:如何提高网站文章收录量?