批量将下载的公众号文章html转pdf,合并pdf文件

[复制链接]
查看: 6488   回复: 10
发表于 2022-12-9 11:48:19 | 显示全部楼层 |阅读模式
最近用python写了个html转换工具html2pdf.exe https://wwk.lanzouf.com/iSpV90fbtpqh  ,代码如下:
[Asm]  
  1. def to_pdf():
  2.     import pdfkit
  3.     htmls = []
  4.     for root, dirs, files in os.walk('.'):
  5.      for name in files:
  6.       if name.endswith(".html"):
  7.        print(name)
  8.        try:
  9.         pdfkit.from_file(name, 'pdf/'+name.replace('.html', '')+'.pdf')
  10.        except Exception as e:
  11.         print(e)
复制代码

工具依赖wkhtmltopdf,先从https://wkhtmltopdf.org/downloads.html 下载,然后将wkhtmltopdf.exe加入环境变量,直接运行html2pdf.exe,导出的pdf文件在pdf目录:


然后用这个pdf合并工具 https://wwn.lanzouf.com/irAGD089czyj 将所有pdf合成一个文件,比如我将莫言老师的所有文章合成了一个pdf文件,看文章方便多了:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

发表于 2022-12-9 11:48:36 | 显示全部楼层
按步骤来做了,但是打开第一个exe程序就闪退了。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-9 11:49:14 | 显示全部楼层
网页上图片较多时,加载有延迟的所有图片,转成Pdf后,图片都无法显示,不知如何解决
回复 支持 反对

使用道具 举报

发表于 2022-12-9 11:49:35 | 显示全部楼层
这个可以有,可以单独现在某一篇,也可以批量下载。我在CSDN下载就用过这种方法
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-9 11:50:18 | 显示全部楼层
好东西,值得收藏
回复 支持 反对

使用道具 举报

发表于 2022-12-9 11:50:42 | 显示全部楼层
感谢楼主分享
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-9 11:51:12 | 显示全部楼层
谢谢楼主
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-9 11:51:57 | 显示全部楼层
非常好的分享,把软件wkhtmltopdf.exe加入环境变量有什么需要注意的吗?
回复 支持 反对

使用道具 举报

发表于 2022-12-9 11:52:48 | 显示全部楼层
谢谢楼主的分享
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-9 11:53:17 | 显示全部楼层
收藏了,感谢楼主分享。我还需要好好钻研一下
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-9 11:53:25 | 显示全部楼层
这个我感觉还是蛮好的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则