轻松获取 3500 万个 Google Profile 信息
今年2月,安全研究专家Matthijs R. Koot很轻松的获得了一个包含有3500个Google Profile信息的数据库,包括有3500万个用户的Twitter说话记录、真实姓名、Picasa图片和邮件地址。由于每个人的Google Profile几乎都是开放的,所以他轻松就批量抓取到了3500万个人的信息,保存在一个SQL数据库里。Google对其大规模大批量抓取Google Profile的行为没有进行反应,就是说Google没有阻拦他的爬虫,没有任何验证码机制,毫无限制的就允许他轻松的在一个月内的时间里使用spidermonkey和其它Javascript代码持续下载到了所有的信息,然后将他们转移到数据库里保存。
实际上从2008年开始,Google的profiles-sitemap.xml就一直存在,其中包含了指向7000多个sitemap NNN(N).txt的文件,每个文件又包含了5000个指向Google Profile的超级链接,总共就是3500万个。比如从sitemap-000.txt里即可得到:
https://profiles.google.com/117135902571938793602
https://profiles.google.com/112006952710949332145
https://profiles.google.com/105382462492606983441
https://profiles.google.com/109299750146769054739
https://profiles.google.com/104555562341640123846
https://profiles.google.com/112956845518767535694
然后排出爬虫抓取这些地址,即可得到3500万用户的Google Profile里存储的信息。实际上这一做法也是合法的,因为Google.com的robots.txt文件其实允许爬虫索引Profile目录,其中有这样的字段:
Allow: /profiles
Allow: /s2/profiles
Allow: /s2/photos
Allow: /s2/static
Matthijs R. Koot的这一研究实际是自己在阿姆斯特丹大学所做的隐私/匿名研究的一部分。最后Matthijs R. Koot还对Google表达了自己帐号不要被封的意愿,因为他的Blog托管在Blogger。 这个确实不错,也许可以用来发邮件 强大的数据 开放的google profile 很难用的上 我访问这些链接怎么是空白页 里面是有数据的,不过只有少部分有邮箱和详细情况,还是有价值的。 要搜索还在分析数据~~ 违法的事情还是不要去做 违法的事情 这个又是怎么用的呢 期待 先围观一下再说:) 要是这些信息到黑客的手上,就完蛋了 感谢,楼主无私分享 先看了 再说。。。 最后一句亮了~
页:
[1]