如何防止扒的或采集的站被老外投诉

fatie · 发表于 2008-10-8 01:26:24

这遍文章是根据本人知道的一些粗陋的想法和知识写成的，因未经实践检验，所以并不能保证100%正确，还有待抄站的朋友实践后反馈给我。

首先我认为老外是通过搜索引擎搜索特定的内容来找到那些抄袭他网站的，这就能解释为什么有些站放了半年才被投诉，那是因为前半年网站根本就没有被搜索引擎收录。

所以如果要防止扒的或采集的网站被老外投诉的关键是阻止搜索引擎收录这些网站，有一个很简单的方法达到这个目的，那就在根目录建一个robots.txt，
写入内容如下：

User-agent: *
Disallow: /

这样就可以禁止任何搜索引擎抓取你的网站了。

其实很简单，如果你就是这样简单的运用，直接用上面的方式就可以。
如果你希望更深入了解robots.txt的运用，比如你有些目录下的网页是抄的不希望被收录，有些则只希望被google收录，那么你可以看看下面的我的两篇转帖。（以上内容作者Z[url=http://www.9125.info/]eiyaiter[/url]，未经授权严禁转载。当然如果你转了，我也没有办法......)

转帖一：《Robots.txt 协议标准》介绍作者：雅虎搜索日志小组

近期有很多站长咨询，怎样正确设置"robots.txt"文件。为了解决广大站长朋友们的疑问，我们对《Robots.txt 协议标准》进行了翻译，希望此篇译文能够帮助大家对"robots.txt"文件有更深的了解。

Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单，但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容，或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

下面我们就来详细介绍一下它的使用方法：

Robots.txt 文件应该放在网站根目录下，并且该文件是可以通过互联网进行访问的。

例如：
如果您的网站地址是 http://www.yourdomain.com/
那么，该文件必须能够通过 http://www.yourdomain.com/robots.txt 打开并看到里面的内容。

格式：

User-agent:

用于描述搜索引擎蜘蛛的名字，在" Robots.txt "文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在" Robots.txt "文件中，"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被Robot访问到。

举例：
例一："Disallow:/help"
是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。
例二："Disallow:/help/"
是指允许搜索引擎蜘蛛抓取/help.html，而不能抓取/help/index.html。
例三：Disallow记录为空

说明该网站的所有页面都允许被搜索引擎抓取，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎蜘蛛，该网站都是开放的可以被抓取的。

#:
Robots.txt 协议中的注释符。

举例：
例一：通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录，以及 "/tmp/"目录和 /foo.html 文件，设置方法如下：
User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html

例二：通过"/robots.txt"只允许某个搜索引擎抓取，而禁止其他的搜索引擎抓取。
如：只允许名为"slurp"的搜索引擎蜘蛛抓取，而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容，设置方法如下：
User-agent: *
Disallow: /cgi/

User-agent: slurp
Disallow:

例三：禁止任何搜索引擎抓取我的网站，设置方法如下：
User-agent: *
Disallow: /

例四：只禁止某个搜索引擎抓取我的网站
如：只禁止名为“slurp”的搜索引擎蜘蛛抓取，设置方法如下：
User-agent: slurp
Disallow: /

转帖二：robots.txt 指南--介绍

有一种力量其实一直在渗入大量的网站和页面，我们通常看不到它们，而且它们通常也很蛮横，大部分人甚至不知道它的存在，大家不要误会，其实我说得是搜索引擎爬虫和机器人。每天，上百个这样的爬虫会出来对网站进行快速的搜索。不管是不是google打算对整个网络进行索引，还是spam机器人打算收集大量的 email地址，通常它们这样的寻找是漫无目的的。作为网站拥有者，我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的。

创建robots.txt文件

好，现在我们开始行动。创建一个叫robots.txt的文本文件，请确保它的文件名是正确的。该文件必须上传到在您的网站的根目录下，而不是二级目录下（例如，应该是http://www.mysite.com，而不是http: //www.mysite.com/stuff），只有满足以上两点，即文件名正确和路径正确，搜索引擎才会根据该文件中的规则工作，否则 robots.txt仅仅只是个常规文件而已，没有任何作用。

现在，你已经知道如果这个文件该如何命名，以及应该把它上传在何处，接下来你会学习在这个文件中键入命令，搜索引擎会遵循一个叫做“机器人排除协议”(Robots Exclusion Protocol)的协议。其实，它的格式很简单，并且能够满足大多数的控制需要。首先是一行USERAGENT用来识别爬虫类型，紧跟着的是一行或者多行DISALLOW，这些行是用来限制爬虫访问网站的一些部分的。

1) robots.txt基本设置
User-agent: *
Disallow: /根据以上的声明，所有的爬虫（这里用*表示出来）均不允许对您的网站的任何部分进行索引，这里的/表示所有页面。通常情况下这不是我们需要的，但这里仅仅是让大家有个概念而已。

2) 现在让我们做一些小小的改动。尽管每个站长都喜欢Google，但是你可能不希望Google的镜像机器人挖掘你的网站，也不希望它把你的网站的镜像放在网上，实现在线搜索，如果仅仅是为了节省你的网站所在的服务器的带宽，下面的声明可以做到这一点
User-agent: Googlebot-Image
Disallow: /

3) 以下代码不允许任何一个搜索引擎和机器人挖掘目录和页面信息
User-agent: *
Disallow: /cgi-bin/
Disallow: /privatedir/
Disallow: /tutorials/blank.htm

4) 你还可以对多个机器人设置不同的目标，看看下面的代码
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/这个设置很有趣，这里我们禁止了所有的搜索引擎对于我们的网站的挖掘操作，除了google，在这里Google被允许访问除了/cgi-bin/和/privatedir/以外的所有站点。这里说明，规则是可以定制的，但不是继承而来的。

5) 有另外一种使用Disallow的方法：即允许访问网站所有内容，其实只要冒号后不输入任何东西就可以了
User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:在这里，除了alex以外的所有爬虫都不允许搜索我们的网站

6) 最后，一些爬虫现在支持Allow规则，最著名的就是Google。正如这个规则的名字所说，"Allow:"允许你精确的控制那些文件或者文件夹是可以被访问的。然而，这个文件目前还不是robots.txt协议的组成部分，所以我建议只有在必须使用时才使用它，因为一些不够聪明的爬虫可能认为它是错误的。
下面的内容来自于Google's的FAQs for webmasters，如果你希望除了Google以外的爬虫都不挖掘你的网站，那么以下的代码是做好的选择
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

[ Last edited by fatie on 2008-10-8 01:31 ]

eprog · 发表于 2008-10-9 09:49:34

问题是如果没有搜索引擎收录，网站的流量大减，网赚还有意义吗？难道全部用PPC？成本好高啊

无限可能 · 发表于 2008-10-12 19:36:10

最简单就是自己做自己的

huanjiangg · 发表于 2008-10-12 20:14:36

二楼的，还是新手，呵呵，不怪你，慢慢你就了解到，自已的网站只有自已和联盟的人看，

其它人看到的越少越好

xueze555 · 发表于 2008-10-13 19:16:04

这个没有用的·
老外查版权不用google的
我测试过了，新扒的站，还是可以查到

如何防止扒的或采集的站被老外投诉

评分