请教一下有采集经验的朋友

  [复制链接]
查看: 808   回复: 12
发表于 2014-10-11 17:52:22 | 显示全部楼层 |阅读模式
我想问怎样采集google收录页,就是说,例如我查看“网页快照”,页面的内容就是google收录的页面,我可以采集这个页面的内容吗,然后,例如google第一页就是10个页面,全部采集完再到第二页,一直采集到限定值,有什么软件可以这样采集或者有什么方法可以实现。

回复

使用道具 举报

发表于 2014-10-11 18:17:46 | 显示全部楼层
火车头就可以啊,这是最基本的功能了。。。
回复 支持 反对

使用道具 举报

发表于 2014-10-11 18:31:27 | 显示全部楼层
GOOGLE别想了
基本上你高频率猜个几十页 就要输验证码了
除非你有大量的私有代理
回复 支持 反对

使用道具 举报

发表于 2014-10-11 18:41:50 | 显示全部楼层
本帖最后由 hudba 于 2014-10-11 18:50 编辑
生魚片 发表于 2014-10-11 18:31 请教一下有采集经验的朋友
GOOGLE别想了
基本上你高频率猜个几十页 就要输验证码了
除非你有大量的私有代理

google就是这样很讨厌,限制得很死
要搞个自动搜集代理的工具

回复 支持 反对

使用道具 举报

发表于 2014-10-11 19:09:36 | 显示全部楼层
可以采集bing一样的,限制很少
回复 支持 反对

使用道具 举报

发表于 2014-10-11 20:42:33 | 显示全部楼层
本帖最后由 dylan 于 2014-10-11 20:43 编辑

Seocontentmachine部分合适
可以找开发者升级你要的功能

点评

谢谢分享  发表于 2014-10-12 00:42
回复 支持 反对

使用道具 举报

 楼主| 发表于 2014-10-11 22:30:06 | 显示全部楼层
dylan 发表于 2014-10-11 20:42 请教一下有采集经验的朋友
Seocontentmachine部分合适
可以找开发者升级你要的功能

有这个功能??谢谢,研究一下

回复 支持 反对

使用道具 举报

 楼主| 发表于 2014-10-12 10:33:24 | 显示全部楼层
为什么我对月 光的回复都要审核的
回复 支持 反对

使用道具 举报

发表于 2014-10-13 11:10:49 | 显示全部楼层
很多网站都有防爬设置 GG就更不用说了,通常也只能用大量的代理IP
没有太好的办法可以绕行
回复 支持 反对

使用道具 举报

发表于 2014-10-13 11:35:41 | 显示全部楼层
你这样采集的内容死的很快的
回复 支持 反对

使用道具 举报

发表于 2014-10-22 03:04:10 | 显示全部楼层
      采集别的引擎好一点
回复 支持 反对

使用道具 举报

发表于 2014-10-29 13:46:14 | 显示全部楼层
没有太好的办法可以绕行
回复 支持 反对

使用道具 举报

发表于 2014-10-29 20:43:01 | 显示全部楼层
为什么都用代理呢。。。用adsl换ip行不行。。。。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则