常见的采集有大致分为两类:cms等自带采集,采集软件。 缺点是效率低、采集不够灵活。php或者asp程序实现采集,这种方式采集任务一多容易卡死。
优点是采集效率很高,采集速度很快,可大批量任务同时采集,并设置好后可做到定时等无人操作自动采集更新的功能。
cms自带的采集在任务量少、网页结构简单时是十分有效的,这里只说下dedecms的过滤规则 {dede:trim}你需要过滤的内容{/dede:trim} 自己使用和结合网上的总结了下过滤html一些代码的正则表达式,可根据情况增减,基本可以满足傻瓜式过滤 {dede:trim}<style([^>]*)>([^>]*)</style>{/dede:trim} {dede:trim}<script([^>]*)>{/dede:trim} {dede:trim}</script>{/dede:trim} {dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim} {dede:trim}<param([^>]*)>{/dede:trim} {dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} {dede:trim}<embed([^>]*)>{/dede:trim} {dede:trim}</embed>{/dede:trim} {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} {dede:trim}<object([^>]*)>{/dede:trim} {dede:trim}</object>{/dede:trim} {dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} {dede:trim}<OBJECT([^>]*)>{/dede:trim} {dede:trim}</OBJECT>{/dede:trim} {dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} {dede:trim}<iframe([^>]*)>{/dede:trim} {dede:trim}</iframe>{/dede:trim} {dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} {dede:trim}<IFRAME([^>]*)>{/dede:trim} {dede:trim}</IFRAME>{/dede:trim} {dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim} {dede:trim}<font([^>]*)>{/dede:trim} {dede:trim}</font>{/dede:trim} {dede:trim}<img([^>]*)>{/dede:trim} {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} {dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim} {dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim} {dede:trim}<td([^>]*)>{/dede:trim} {dede:trim}</td>{/dede:trim} {dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim} {dede:trim}<tr([^>]*)>{/dede:trim} {dede:trim}</tr>{/dede:trim} {dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} {dede:trim}<tbody>{/dede:trim} {dede:trim}</tbody>{/dede:trim} {dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim} {dede:trim}<table([^>]*)>{/dede:trim} {dede:trim}</table>{/dede:trim} {dede:trim}</span>{/dede:trim} 一旦采集任务量大或者网页结构复杂等时,建议最好不要考虑用cms自带的采集,费时费力,效果一般。 Cms自带的采集即使是采普通的网页过滤起来也很麻烦,还是采集软件爽啊,随便设下就ok了 其他的cms就不说了,说下采集软件的采集,采集软件的采集就像下载软件一样,即使网速再慢都不会卡死,经常用cms都知道采上一百的文章都经常卡死。 现在采集软件很多很乱,基本没有形成一个品牌,常用的有火车头(www.locoy.com)、小蜜蜂BC(www.downreg.com)、守望数据(http://mycjq.uu1001.com)、三人行采集(www.cnsrx.cn)、网络信息采集大师(www.netget.com.cn) |