Wordpress 评论求教

  [复制链接]
查看: 905   回复: 23
发表于 2013-9-13 07:26:38 | 显示全部楼层 |阅读模式
本帖最后由 HONG 于 2013-9-13 07:32 编辑

我让老外帮我整了些个垃圾评论,他的报告很详细: 关键词,评论地址,等信息都记录下来。
如图

我一看都是wordpress页面,而且网页上面动辄几千条评论。然后我把那个地址拿过来 用我的scrapebox 或者 xrumer (破解)的跑一圈后,发现都是提示网页太大打不开。

我用常规的软件无法发布上去,那老外怎么能够发布成功的呢?
难道他们不需要下载页面,直接发送到wordpress 的评论表单(猜想,求指教)

他们难道有啥利器? 或者真的是本地网速的原因,需要百兆带宽吗?
我们今天先不讨论,博客留言有用没用好不好, 我今天想知道的是,我如何成功在wordpress上面把言留住。

提前感谢有这方面经验的高人指点






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
发表于 2013-9-13 07:32:21 | 显示全部楼层
这种评论真的没有什么价值啊,而且会k站的
有3种可能,
第1是这些站的后台里面直接添加的,使用xmlprc,说明站是自己的
第2是直接post请求提交到数据库,不走referer页面,说明程序的特殊的,或者是自己开发的
第3是仍然使用了scrapebox 或者 xrumer 等,但是别人的处理能力和带宽都比你强很多

评分

参与人数 1T币 +2 收起 理由
luguokankan + 2

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-9-13 07:38:49 | 显示全部楼层
本帖最后由 HONG 于 2013-9-13 07:40 编辑
月光飞燕 发表于 2013-9-13 07:32 Wordpress 评论求教
这种评论真的没有什么价值啊,而且会k站的
有3种可能,
第1是这些站的后台里面直接添加的,使用xmlprc,说 ...

很感激您的及时回复,
实话讲,我觉得垃圾评论目前还是有帮助的。(几天我就斗胆了)
我也是最近结合了自己的几个案例,才发现的评论还是有价值的,所有最近对这块比较想钻研下来。

当然,我也不想把论坛的风气带坏哦, 我也不希望论坛哪天从英文做国外论坛变成黑帽论坛了。 呵呵,开个玩笑




回复 支持 反对

使用道具 举报

发表于 2013-9-13 08:22:14 | 显示全部楼层
呵呵
月光来的真及时


回复 支持 反对

使用道具 举报

发表于 2013-9-13 10:35:37 | 显示全部楼层
wordpress是否可视?如果可视的话确实NIU X。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-9-13 10:57:47 | 显示全部楼层
pp30330 发表于 2013-9-13 10:35 Wordpress 评论求教
wordpress是否可视?如果可视的话确实NIU X。

可视是什么意思?
http://linux.ucentral.cl/web2/?p=319

这个是其中一个垃圾链接地址

点评

这个地址下的comments的link都是nofollow  发表于 2013-9-13 13:49
回复 支持 反对

使用道具 举报

发表于 2013-9-13 11:50:18 | 显示全部楼层
感觉评论还是少做比较好 可以做些相关的 follow的  增加外链的资源种类
回复 支持 反对

使用道具 举报

发表于 2013-9-13 13:14:03 | 显示全部楼层
大部分网站对评论区域网址设置了nofollow,还是少发这种链接
回复 支持 反对

使用道具 举报

发表于 2013-9-13 13:45:52 | 显示全部楼层
你想量变引起质变Wordpress 评论求教我也是菜鸟只知道要发好的外链
回复 支持 反对

使用道具 举报

发表于 2013-9-13 17:00:14 | 显示全部楼层
自动评论通过的网站对网站服务器也是一个考验
回复 支持 反对

使用道具 举报

发表于 2013-9-13 17:45:16 | 显示全部楼层
月光飞燕 发表于 2013-9-13 07:32 Wordpress 评论求教
这种评论真的没有什么价值啊,而且会k站的
有3种可能,
第1是这些站的后台里面直接添加的,使用xmlprc,说 ...

第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.
所以还是得先访问页面


回复 支持 反对

使用道具 举报

发表于 2013-9-13 18:02:14 | 显示全部楼层
luguokankan 发表于 2013-9-13 17:45 Wordpress 评论求教
第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.

没有实践过,如果是你说的那样,至少可以不去读js和大量的头像等
如果宽带充足,问题不大


回复 支持 反对

使用道具 举报

发表于 2013-9-13 19:15:20 | 显示全部楼层
月光飞燕 发表于 2013-9-13 18:02 Wordpress 评论求教
没有实践过,如果是你说的那样,至少可以不去读js和大量的头像等
如果宽带充足,问题不大

其实大部分scraper都是只读取目标html结构,不会去读取其他文件的, 这些文件包括js,css,图片的.

比如你用php curl下载一个网页, 绝对就只有那个网页文件,不会有它引用的其他文件.

这几年不是流行nodejs之类的headless webkit东东,这个用来做scraper,可以支持js. Wordpress 评论求教





回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-9-13 21:26:53 | 显示全部楼层
luguokankan 发表于 2013-9-13 17:45 Wordpress 评论求教
第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.

我觉得你的思路对路的,假如直接post到 wp-comment-post.php 的话, 就给以绕过下载那个超大的网页了。问题就是要弄个脚本拿到文章地址的 文章ID, 我们不可能一个个的去查文章ID的

回复 支持 反对

使用道具 举报

发表于 2013-9-14 07:06:17 | 显示全部楼层
HONG 发表于 2013-9-13 21:26 Wordpress 评论求教
我觉得你的思路对路的,假如直接post到 wp-comment-post.php 的话, 就给以绕过下载那个超大的网页了。问 ...

对啊,这个方法的局限就是你得先找到post id.

不过可以猜啊. Wordpress 评论求教
www.test.com/?p=xxx

你发header请求验证页面是否存在.

用header就避免了下载整个网页了,对不对 Wordpress 评论求教

那么多spam, 肯定comment不需要管理, 猜对post id直接post到wp-comment-post.php


回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-9-14 11:56:03 | 显示全部楼层
luguokankan 发表于 2013-9-14 07:06 Wordpress 评论求教
对啊,这个方法的局限就是你得先找到post id.

不过可以猜啊.

嗯,对于 id在链接中的话,我们很容易用php 脚本拿到。 但是,文章伪静态了呢?比如这个
http://arcadegameworld.com/play/stone-age-mahjong-connect/

我对你说到的header 办法不是很明白,能否明示。
或者请路过高人,加以指点: 如何能够用php 或者其他办法通过博文地址拿到ID,比如上面这个地址。
关键是: 有的博文很大很大, 一般常规采集的函数 php file_get_contents 可能不好使。

今天,就在这里碰碰运气,看能否解决我的难题



回复 支持 反对

使用道具 举报

发表于 2013-9-14 12:21:55 | 显示全部楼层
本帖最后由 luguokankan 于 2013-9-14 12:23 编辑
HONG 发表于 2013-9-14 11:56 Wordpress 评论求教
嗯,对于 id在链接中的话,我们很容易用php 脚本拿到。 但是,文章伪静态了呢?比如这个
http://arcadega ...

额,我说的是猜....

启动了伪静态, 比如: www.test.com/hello-world

你还是可以通过www.test.com/?p=1访问的

至于header请求嘛,  你知道get, post吧?  你自己查下吧. 跟ping差不多吧.

之前比较懒,没有动手测试. 现在给你看下header请求的结果



没想到文章id直接在headers里面. Wordpress 评论求教 我算半个高人吧 Wordpress 评论求教

还有,我奉劝你别使用file_put_contents, 用php curl吧, 支持header请求



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

评分

参与人数 1T币 +1 收起 理由
HONG + 1

查看全部评分

回复 支持 反对

使用道具 举报

发表于 2013-9-14 16:17:04 | 显示全部楼层
楼上高手,直接在header里查id
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-9-14 17:23:29 | 显示全部楼层
luguokankan 发表于 2013-9-14 12:21 Wordpress 评论求教
额,我说的是猜....

启动了伪静态, 比如: www.test.com/hello-world

谢谢您,经过您的指点,我已近实验成功了

回复 支持 反对

使用道具 举报

发表于 2013-9-14 17:32:20 | 显示全部楼层
HONG 发表于 2013-9-14 17:23 Wordpress 评论求教
谢谢您,经过您的指点,我已近实验成功了

做出来记得给我一份啊 Wordpress 评论求教

评分

参与人数 1T币 +1 收起 理由
HONG + 1 虽然你不缺分数,但我还是愿意给您,聊表心.

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-9-14 17:35:36 | 显示全部楼层
luguokankan 发表于 2013-9-14 17:32 Wordpress 评论求教
做出来记得给我一份啊

您这样的大牛,博士生导师级别的, 拿小弟开玩笑吧  呵呵   Wordpress 评论求教

这个是我实现的代码:

<?php
$url = 'http://arcadegameworld.com/play/stone-age-mahjong-connect/';

$header = get_header($url);
echo $header;

function get_header($url){
    $ch  = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt($ch, CURLOPT_NOBODY,true);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
    //curl_setopt($ch, CURLOPT_FOLLOWLOCATION,true);
    curl_setopt($ch, CURLOPT_AUTOREFERER,true);
    curl_setopt($ch, CURLOPT_TIMEOUT,30);
    curl_setopt($ch, CURLOPT_HTTPHEADER, array(
    'Accept: */*',
    'User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)',
    'Connection: Keep-Alive'));
    $header = curl_exec($C);
    return $header;
}
?>



运行后的结果:



HTTP/1.1 200 OK
Date: Sat, 14 Sep 2013 09:28:54 GMT
Server: Apache
X-Pingback: http://arcadegameworld.com/xmlrpc.php
Link: <http://arcadegameworld.com/?p=3155>; rel=shortlink
Vary: Accept-Encoding
Connection: close
Content-Type: text/html; charset=UTF-8







回复 支持 反对

使用道具 举报

发表于 2013-9-14 17:48:10 | 显示全部楼层
HONG 发表于 2013-9-14 17:35 Wordpress 评论求教
您这样的大牛,博士生导师级别的, 拿小弟开玩笑吧  呵呵   

这个是我实现的代码:

打算用php来做评论吗? 可以使用rollingcurl库

https://github.com/takinbo/rolling-curl


good luck!
回复 支持 反对

使用道具 举报

发表于 2013-9-16 13:03:40 | 显示全部楼层
有位兄弟回答了,确实可以直接在post里面看

回复 支持 反对

使用道具 举报

发表于 2013-10-4 09:09:25 | 显示全部楼层
这个原理不知道。。这个行业水深,大神很多
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则