求教下图片站防采集突破的问题
看到一个图片站,想采集,看了下源代码然后直接输入图片地址打开的图片是乱的
但是前台看到的又是正常的,请问这是什么防采集技术?怎么破?
地址和图片如下
https://18comic.vip/photo/241077
https://cdn-msp.18comic.vip/media/photos/241077/00003.jpg?v=1644588185 首先原图肯定是乱序的,首先第一件事就是确认顺序是怎么个乱法.
如果是随机打乱,那肯定还有接口是存储图片正常顺序的.
所以你首先要做的就是"人工拼图",下面是步骤:
1.发现图片全部都是横着分割的
2.找一张上下图片连续的大图,比如第一张图"封面"
3.查看原图和对比正确顺序的图,发现图片只是简单的,横着分成10等份.然后把顺序反转一下.
4.依次验证其他图是不是也是这样,验证后确认图片全部都是,平均分成10等分,然后反转一下顺序.
那解决方案就很简单了,不管啥语言写的爬虫,这种级别的图片编辑基本上都是几行代码的事.
图片爬取下来后,读取图片,获取图片高度,再除以10,分割成这是十张小图,再反转一下顺序保存新图就完事了.
https://cdn-msp.18comic.vip/media/photos/241077/00001.jpg
00001_r.jpg(29.05 KB, 下载次数: 0)2022-2-12 06:30 上传
点击文件名下载附件 有大佬指导下吗? 地址都不发,谁能帮到你 dizhi tie le pt站这种资源一大包。不需要采集这里的啊 老哥,求个地址 馒头里面你要多少有多少 估计是靠js吧https://cdn.jsdelivr.net/gh/master-of-forums/master-of-forums/public/images/patch.gif 这种一般都是js 控制 求教下,具体是哪个js?要采集的话怎么采集?
页:
[1]