kevinmy 发表于 2014-10-27 01:01:18

从0开始学采集------初级篇:通过火车头采集发布到wordpress

前言:
我是论坛新人,前几天刚刚注册,看到一个提问我正好会就回答了(帖子地址:http://www.cnwebmasters.com/thread-121030-1-1.html),没想到除了得到提问者的感谢外,还有很多朋友为我加T币,这很让我意外同时也鼓舞了我,也第一次感受到了“我分享,我快乐”,为了更好的解答上面帖子的问题,也让更多刚刚步入网站这行的朋友尽快了解采集,我做一个采集发布的例子,截图下来,供大家参考!


需要的工具:
1.火车采集器。我下载的是V8.4免费版,网址http://www.locoy.com/Down/LocoySpider/LocoySpiderV8.html
2.wordpress源码。我下载的是4.0,网址https://cn.wordpress.org/
3.上次推荐的哈默免登录发布模块由于我是几年前在用,这次做教程下载下来,发现他没有在更新了,不支持最新版火车头和wp4.0。网上搜索下载了几个新版本的经测试也不能用。后来选择了直接用sql语句直接入库,测试成功,下面介绍给大家。


步骤:
1.本地搭建好PHP环境,安装好wordpress,过程省略。


2.打开火车头采集器,以采集器内置规则为例,讲解如何使用火车头。



采集的内容列表为:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml打开这个网址后,我们发现一共有5个列表页,通过比较我们发现列表地址的前面内容一样,区别在于最后的部分分别为:/index_1.shtml,/index_2.shtml,/index_3.shtml,/index_4.shtml,/index_5.shtml。这样的话我们只需要把不必的内容固定,变化的内容用(*)来表示,由于属于等差数列总的列表数为5页,所以选择首项为1,项数为5.确认无误后,点击添加---完成。





内容网址为:http://news.sina.com.cn/c/2014-10-26/222231047597.shtml,同时看了多页归纳格式为:http://news.sina.com.cn/c/*************








在找采集规则的开始和结束标记时,一般是用浏览器打开要采集的网址后,鼠标右键选查看源代码,在源代码中寻找要采集的内容,往上找是开始标记,往下找是结束标记。标记的特点是唯一。根据这个特点,我们重新填写内容标签的规则,如下图,同时Html标签排除里,去掉了链接,DIV等标记,这是为了能够做到只采集文字部分。














以上就是通过火车头发布到wordpress的一个简单实例,在wordpress显示成功,虽然截图了,但由于我单日限制上传1MB的图片附件,所以无法上传了。




moneybooks 发表于 2014-10-27 06:30:00

很细很全面,顶楼主分享精神!!!!!

roror999 发表于 2014-10-27 07:41:24

你发优秀文章,我会大力给T币!谢谢.

cdwyd 发表于 2014-10-27 07:44:37

支持楼主的无私分享。。。。

foxconndmd 发表于 2014-10-27 08:47:12

写的很详细,蜘蛛直接入库才是王道。

晕蛋疯亲 发表于 2014-10-27 09:44:08

:lol 新版本感觉用起来的采集速度比2010的慢啊

莫闲 发表于 2014-10-27 09:49:55

多谢楼主了,给平分了,希望以后多分享

dingdongniao 发表于 2014-10-27 09:57:22

这种文章非常好~谢谢~大力支持

夜晚的 发表于 2014-10-27 10:09:46

:) 感谢分享,谢谢!很详细的教程

风来吴山 发表于 2014-10-27 10:16:07

感谢分享,谢谢!很详细的教程

mulao 发表于 2014-10-27 10:21:23

采集利器啊
很好,学习了   

乐乐 发表于 2014-10-27 10:43:46

让我想起了06年在落伍者有朋友分享了一个简单教程写php代码,让我开始了编程道路。
希望你这个系列帖子能写完
对论坛采集新手帮助帮助很大,多谢分享。

xjtuelin 发表于 2014-10-27 13:55:54

谢谢,我现在正在开始执行采集!

Dhf 发表于 2014-10-27 14:26:12

采集啊 学习了                                                

xx19941215 发表于 2014-10-27 15:02:30

光采集的话怎么解决原创性呢?

kevinmy 发表于 2014-10-27 15:15:04

xx19941215 发表于 2014-10-27 15:02 static/image/common/back.gif
光采集的话怎么解决原创性呢?

现在不是都说采集站没有出路吗,所以在内容上肯定谈不上原创性,我只是觉得做网站的话,采集毕竟还是一个基础的东西,就算不采集内容,比如:采集Amazon的产品列表,图片,链接等内容,在不会调用API的情况下,还得靠采集来解决。分享的这篇文章,也是最为基础、入门的采集过程。

如果说要把这个例子中采集到的内容,提高原创性的话,应该只能用伪原创了,但可读性也差,且能否过搜索引擎也不一定。典型的话就是同义词替换,火车头早先的版本有插件,还有一些工具支持对数据库内容做同义词替换,效果都差不多

roror999 发表于 2014-10-27 16:24:07

期待楼主的中级篇、高级篇

jackok 发表于 2014-10-27 16:30:00

楼主辛苦了, 图文并茂, 好帖.

michaelr 发表于 2014-10-27 16:37:29

不错的内容,值得一看。。。。

jayhkun 发表于 2014-10-27 18:22:03

感谢分享                        

进藤 发表于 2014-10-27 19:20:39

kevinmy 发表于 2014-10-27 15:15 static/image/common/back.gif
现在不是都说采集站没有出路吗,所以在内容上肯定谈不上原创性,我只是觉得做网站的话,采集毕竟还是一个 ...

采集有千千万万的玩法,关键是如何玩出花样。如果有擅长资源整合的能力,那采集就是把利刃。

kevinmy 发表于 2014-10-27 20:46:40

进藤 发表于 2014-10-27 19:20 static/image/common/back.gif
采集有千千万万的玩法,关键是如何玩出花样。如果有擅长资源整合的能力,那采集就是把利刃。

...

说的不错,采集之后确实需要处理。资源整合方面,能否分享下呢?

zqazfg 发表于 2014-10-28 13:21:37

留个脚印                                 

tkmy 发表于 2014-10-28 17:15:18

谢谢!很详细的教程   。。

hel 发表于 2014-10-29 12:37:47

非常感谢   期待下面的精彩

demoncj 发表于 2014-10-29 16:04:53

非常感谢   你的分享 很有价值:lol

r12eetn8 发表于 2014-10-29 16:44:14

谢谢分享,很详细。。。。

pwzx 发表于 2014-10-30 06:44:48

非常感谢,采集是做站的基础啊

lanmao1 发表于 2014-10-30 08:02:20

伪原创是不是需要vip版的火车头

370170639 发表于 2014-10-30 10:46:27

只会基础采集,一般用来采集文章。

liuye 发表于 2014-10-30 16:44:21

不错 不错 感谢分享                              

代码人生 发表于 2014-10-30 21:51:52

感谢分享,谢谢!很详细的教程

xx88000 发表于 2014-10-31 10:40:25


楼主辛苦了, 图文并茂, 好帖.

Samemaidese 发表于 2014-11-8 07:44:48

授人以鱼不如授人以渔,支持一下。:lol

liguagua 发表于 2014-11-8 09:13:18

好东西, 多谢多谢,.

采集是要用到的.

891352094 发表于 2014-11-16 12:25:14

我想知道你是不是柳昊天~~~~你的头像他说是他自己画的。。。。

jiandanjiao 发表于 2014-11-16 14:21:18

初级作品也是很赞的,多谢分享。。。

mainz 发表于 2014-12-2 00:37:36

努力学习采集中,感谢楼主分享
页: [1]
查看完整版本: 从0开始学采集------初级篇:通过火车头采集发布到wordpress