采集概况和采集软件实例介绍

[复制链接]
查看: 1428   回复: 2
发表于 2008-2-27 20:10:03 | 显示全部楼层 |阅读模式
常见的采集有大致分为两类:cms等自带采集,采集软件。
cms等自带采集:
缺点是效率低、采集不够灵活。php或者asp程序实现采集,这种方式采集任务一多容易卡死。
优点是和cms本身能融为一体,便于发布。
采集软件:

缺点是发布的时候不同的cms需要不同的接口处理。

优点是采集效率很高,采集速度很快,可大批量任务同时采集,并设置好后可做到定时等无人操作自动采集更新的功能。
cms自带的采集在任务量少、网页结构简单时是十分有效的,这里只说下dedecms的过滤规则
{dede:trim}你需要过滤的内容{/dede:trim}
自己使用和结合网上的总结了下过滤html一些代码的正则表达式,可根据情况增减,基本可以满足傻瓜式过滤
{dede:trim}<style([^>]*)>([^>]*)</style>{/dede:trim}
{dede:trim}<script([^>]*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}</span>{/dede:trim}
一旦采集任务量大或者网页结构复杂等时,建议最好不要考虑用cms自带的采集,费时费力,效果一般。
Cms自带的采集即使是采普通的网页过滤起来也很麻烦,还是采集软件爽啊,随便设下就ok了
其他的cms就不说了,说下采集软件的采集,采集软件的采集就像下载软件一样,即使网速再慢都不会卡死,经常用cms都知道采上一百的文章都经常卡死。
现在采集软件很多很乱,基本没有形成一个品牌,常用的有火车头(www.locoy.com)、小蜜蜂BC(www.downreg.com)、守望数据(http://mycjq.uu1001.com)、三人行采集(www.cnsrx.cn)、网络信息采集大师(www.netget.com.cn

评分

参与人数 2 +87 收起 理由
汉的骄阳 + 47 精品文章
妖刀 + 40

查看全部评分

 楼主| 发表于 2008-2-27 20:12:14 | 显示全部楼层

采集.part2.rar

采集.part2.rar
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-2-28 06:40:31 | 显示全部楼层
具体的内容请下载附件啊,太大分成了2部分
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则