idcspy 发表于 2011-6-2 10:58:05

轻松获取 3500 万个 Google Profile 信息

今年2月,安全研究专家Matthijs R. Koot很轻松的获得了一个包含有3500个Google Profile信息的数据库,包括有3500万个用户的Twitter说话记录、真实姓名、Picasa图片和邮件地址。由于每个人的Google Profile几乎都是开放的,所以他轻松就批量抓取到了3500万个人的信息,保存在一个SQL数据库里。

Google对其大规模大批量抓取Google Profile的行为没有进行反应,就是说Google没有阻拦他的爬虫,没有任何验证码机制,毫无限制的就允许他轻松的在一个月内的时间里使用spidermonkey和其它Javascript代码持续下载到了所有的信息,然后将他们转移到数据库里保存。

实际上从2008年开始,Google的profiles-sitemap.xml就一直存在,其中包含了指向7000多个sitemap NNN(N).txt的文件,每个文件又包含了5000个指向Google Profile的超级链接,总共就是3500万个。比如从sitemap-000.txt里即可得到:

https://profiles.google.com/117135902571938793602
https://profiles.google.com/112006952710949332145
https://profiles.google.com/105382462492606983441
https://profiles.google.com/109299750146769054739
https://profiles.google.com/104555562341640123846
https://profiles.google.com/112956845518767535694
然后排出爬虫抓取这些地址,即可得到3500万用户的Google Profile里存储的信息。实际上这一做法也是合法的,因为Google.com的robots.txt文件其实允许爬虫索引Profile目录,其中有这样的字段:

Allow: /profiles
Allow: /s2/profiles
Allow: /s2/photos
Allow: /s2/static
Matthijs R. Koot的这一研究实际是自己在阿姆斯特丹大学所做的隐私/匿名研究的一部分。最后Matthijs R. Koot还对Google表达了自己帐号不要被封的意愿,因为他的Blog托管在Blogger。

yinliang 发表于 2011-6-2 13:02:44

这个确实不错,也许可以用来发邮件

ziwuke 发表于 2011-6-3 00:28:01

强大的数据

dahuie 发表于 2011-6-3 14:36:09

开放的google profile

flyingfish83 发表于 2011-6-3 16:54:41

很难用的上

hlzone 发表于 2011-6-4 15:25:17

我访问这些链接怎么是空白页

idcspy 发表于 2011-6-7 09:33:39

里面是有数据的,不过只有少部分有邮箱和详细情况,还是有价值的。

tmnba 发表于 2011-7-28 14:46:40

要搜索还在分析数据~~

四眼鸵鸟 发表于 2011-7-30 18:15:27

违法的事情还是不要去做

henco 发表于 2011-8-17 18:09:28

违法的事情

guosheng 发表于 2011-8-19 13:46:40

这个又是怎么用的呢 期待

yzwwm88 发表于 2011-8-29 07:41:48

先围观一下再说:)

magiccutts 发表于 2011-9-16 21:45:47

要是这些信息到黑客的手上,就完蛋了

ssjhs3030 发表于 2012-1-8 18:52:10

感谢,楼主无私分享

seseext 发表于 2012-2-10 06:29:25

先看了 再说。。。

xavier 发表于 2012-2-10 11:21:18

最后一句亮了~
页: [1]
查看完整版本: 轻松获取 3500 万个 Google Profile 信息