今天打开火车头采集器需要更新下织梦网站,可是点了开始后发现错误了重新修改了列表采集规则。没仔细看等抓完300多个连接导入数据库时发生错了,仔细一看该目标站的文章列表页将文章url地址做了( Z e b n N y . z处理。

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

表现:

常规的文章列表文章URL应该是 <a href=”h! ( wttps://www.dede58.com/URL.hty \ ] ;ml”>才对,而该^ ? y { H P q d T站处理成了<a href=”http:n S a E S 9//www.dede58.com/URL.html”>,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://www.dede58.co_ + Q # D & 7m/www.dede58.com/URL.html,这样的话& b [ 4 X + d就无法正确采集内容了。

解决f L N m 4 Y j ? `方法:

在网址获取选项里点选“手动填写链接地址规则”,

右侧脚本规则填写【a class=”item” hm $ Yref=”http:/& { | 4 V U w M $/www.dede58.com/ag q ] m 8 1 g ` Q/dedejq/[%E5%8F%82%E6%95%B0]” title=”(*)” target=”_blank”>】这里b F } \ u ; c的参数就是原始目前的l P R I 5 3 : M S不带协议头的网址。

实际连接:填写【http:[参数1]】如果该– G z p q网站是https的这里就填写【https:[参数1]】

结果:

以上操作后点获取网址测试正确,从采集,入库等都OK了。

PS:

这个网址问题以前看到过,用DEDECMS织梦采集就是网址错误,今天在} y Q b y 4 j火车头上总算是解决了。

, n | & Y v责声明:本站所有文章和图片均来自用户分享和网络收集,文2 % G % v章和图片版权归原作I Q m q v者及原出处所有,仅供学习与参考,请勿用于商业用途,如果损害了您的权利t 0 X H W,请联系网站客服处理。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注