继续是采集的问题,如何获得google、bing的缓存页地址

  [复制链接]
查看: 695   回复: 7
发表于 2014-10-13 16:19:32 | 显示全部楼层 |阅读模式
今天开始尝试用火车头采集google、bing的缓存页(即快照),但是遇到问题了,缓存页都需要点开下来箭头才能显示出来,在代码里又不能看到,不知道怎么获取这个地址,有高手能解决吗

回复

使用道具 举报

发表于 2014-10-13 18:33:49 | 显示全部楼层
直接采集目标站,而不是快照
回复 支持 反对

使用道具 举报

 楼主| 发表于 2014-10-13 21:27:38 | 显示全部楼层
月光飞燕 发表于 2014-10-13 18:33 继续是采集的问题,如何获得google、bing的缓存页地址
直接采集目标站,而不是快照

例如ezinearticles.com这样的网站会有限制的,直接采集需要的IP多还是采集bing的IP多,就这个问题纠结
回复 支持 反对

使用道具 举报

发表于 2014-10-13 22:03:51 | 显示全部楼层
以前采集用过有道搜索,限制低,现在不知。

点评

谢谢分享  发表于 2014-10-13 23:43
回复 支持 反对

使用道具 举报

发表于 2014-10-13 23:49:08 | 显示全部楼层
抓包,快照地址都在json里面

评分

参与人数 1T币 +1 收起 理由
bbbbb111115 + 1

查看全部评分

回复 支持 反对

使用道具 举报

发表于 2014-10-13 23:56:04 | 显示全部楼层
更改useragent为文本浏览器,比如说w3m 或lynx

普通浏览器页面里面也有,仔细找

不建议采缓存,不全
回复 支持 反对

使用道具 举报

 楼主| 发表于 2014-10-14 09:09:59 | 显示全部楼层
无言 发表于 2014-10-13 23:49 继续是采集的问题,如何获得google、bing的缓存页地址
抓包,快照地址都在json里面

可以加我,教教我怎么抓包,我现在都研究,就是不懂怎么抓
回复 支持 反对

使用道具 举报

发表于 2014-10-14 21:22:59 | 显示全部楼层
bbbbb111115 发表于 2014-10-14 09:09 继续是采集的问题,如何获得google、bing的缓存页地址
可以加我,教教我怎么抓包,我现在都研究,就是不懂怎么抓

用fiddler抓包,可以百度一下怎么用

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则