|
前言:
我是论坛新人,前几天刚刚注册,看到一个提问我正好会就回答了(帖子地址:http://www.cnwebmasters.com/thread-121030-1-1.html),没想到除了得到提问者的感谢外,还有很多朋友为我加T币,这很让我意外同时也鼓舞了我,也第一次感受到了“我分享,我快乐”,为了更好的解答上面帖子的问题,也让更多刚刚步入网站这行的朋友尽快了解采集,我做一个采集发布的例子,截图下来,供大家参考!
需要的工具:
1.火车采集器。我下载的是V8.4免费版,网址http://www.locoy.com/Down/LocoySpider/LocoySpiderV8.html
2.wordpress源码。我下载的是4.0,网址https://cn.wordpress.org/
3.上次推荐的哈默免登录发布模块由于我是几年前在用,这次做教程下载下来,发现他没有在更新了,不支持最新版火车头和wp4.0。网上搜索下载了几个新版本的经测试也不能用。后来选择了直接用sql语句直接入库,测试成功,下面介绍给大家。
步骤:
1.本地搭建好PHP环境,安装好wordpress,过程省略。
2.打开火车头采集器,以采集器内置规则为例,讲解如何使用火车头。
采集的内容列表为:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml打开这个网址后,我们发现一共有5个列表页,通过比较我们发现列表地址的前面内容一样,区别在于最后的部分分别为:/index_1.shtml,/index_2.shtml,/index_3.shtml,/index_4.shtml,/index_5.shtml。这样的话我们只需要把不必的内容固定,变化的内容用(*)来表示,由于属于等差数列总的列表数为5页,所以选择首项为1,项数为5.确认无误后,点击添加---完成。
内容网址为:http://news.sina.com.cn/c/2014-10-26/222231047597.shtml,同时看了多页归纳格式为:http://news.sina.com.cn/c/*************
在找采集规则的开始和结束标记时,一般是用浏览器打开要采集的网址后,鼠标右键选查看源代码,在源代码中寻找要采集的内容,往上找是开始标记,往下找是结束标记。标记的特点是唯一。根据这个特点,我们重新填写内容标签的规则,如下图,同时Html标签排除里,去掉了链接,DIV等标记,这是为了能够做到只采集文字部分。
以上就是通过火车头发布到wordpress的一个简单实例,在wordpress显示成功,虽然截图了,但由于我单日限制上传1MB的图片附件,所以无法上传了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
评分
-
查看全部评分
|