bricema 发表于 2021-9-18 09:39:43

利用轻量服务器搭建pdf在线工具箱(支持OCR!!!支持OCR!!!)

和昨天发的不一样!!!!今天发的这个支持OCR!!!!!

前两天需要压缩一个pdf文件,由于pdf中涉及到了一些个人信息,不想使用在线的网站的压缩。下载了几个离线的压缩工具,大部分居然都需要收费,虽然后来找到了一个免费的工具搞定了这件事,不过想到后面可能还会碰到这样的事情,因此萌生了自己做一个在线压缩pdf的网站的想法。查阅了相关资料,最后借助ghostscript 实现了我的需求,等于是站在巨人的肩膀上吧。不过有mjj觉得网站功能太单调了,还有mjj想要OCR的功能,我看了一下ghostscript的文档,发现ghostscript是支持OCR的,那还等什么,集成就完事了。如果mjj们觉得有用的话,给我的github仓库https://github.com/lixiaofei123/pdftoolbox点一个star吧。由于新的工具网站不仅仅是只支持pdf压缩,现在也支持OCR,后面可能还会增加别的功能,因此我将原来的pdfcomress仓库换成了pdftoolbox(PDF工具箱)。

下面是新版PDF工具箱的首页


先说安装。首先要安装PDF工具箱,肯定要购买一台服务器,这里我强烈推荐腾讯云的轻量服务器,目前还在秒杀活动,2C4G的配置一年只需要74元。秒杀地址我就不放了,相信mjj们都可以找到



然后选择【地域】和【镜像】,【地域】选择距离自己最近的,【镜像】选择Docker,当然如果自己会安装docker的话,也可以尝试自己安装。我这里为了方便,就直接选择自带的docker镜像了



购买了服务器以后,然后配置密钥之类的,再用ssh终端工具连接上。这些就不讲了,相信mjj们比我熟悉。这里我假设mjj们已经安装好了docker环境。

我把程序打包成了Docker镜像,每次提交都用github action自动构建Docker镜像并自动push到docker仓库里。如果mjj们还不放心的话,可以访问我的github仓库https://github.com/lixiaofei123/pdftoolbox,里面有dockerfile,可以自行构建镜像。

用docker安装,那自然是十分简单,几行命令就搞定了

mkdir -p /data/pdftoolbox/input
mkdir -p /data/pdftoolbox/output
docker run -d --name pdftoolbox --restart=always -p 8082:8082 -v /data/pdftoolbox/input:/opt/pdftoolbox/input-v /data/pdftoolbox/output:/opt/pdftoolbox/outputmrlee326/pdftoolbox

其中/opt/pdftoolbox/input是用来放置用户上传文件的目录,/opt/pdftoolbox/output是用来放转换后的文件的目录,建议将其挂载在宿主机上,这样就方便后面清理文件了。有能力的话,可以自己写一个定时脚本来清理过期的文件。

如果上面执行没有报错的话,那么基本上就已经启动成功了,此时访问ip:8082就可以看到首页了。

先来试用一下pdf压缩功能。在低质量模式下,可以将pdf的体积压缩到原来的1/4大小。



pdf压缩主要针对的是包含图片比较多的pdf,如果原pdf中基本上都是文字的话,那么压缩的效果就不太理想。因为基本上没压缩的空间了。

再来试一下OCR功能,我是从专利网上随便下载了一个pdf进行测试的。这个功能同样是基于ghostscript来实现的。先激活【PDF文字提取】选项,然后根据需要来选择额外支持的语言,目前内部默认支持简体中文和英文,因此基本上不需要选择。点击上传文件,就会自动进行转换,如果机器的性能比较低的话,这一步可能会比较慢,请耐心等待几分钟。等下面的进度条全部走完,并出现【点击下载】按钮,说明转换完毕,这时候点击下载即可。





如果需要配置HTTPS的话,相信这么简单的东西,mjj自己都会配置,我就不班门弄斧了。通过上面的过程,我们就有了一个属于自己的在线pdf压缩网站,这样也不用担心自己的个人信息被别人保存,同时更换电脑的话也不需要重新安装软件。

灌水王 发表于 2021-9-18 09:39:53

离线压缩……adobe不香吗…… 没搞懂

灌水王 发表于 2021-9-18 09:39:58

大佬是个好人,usage从买服务器开始教,还不放aff:lolhttps://cdn.jsdelivr.net/gh/master-of-forums/master-of-forums/public/images/patch.gif

灌水王 发表于 2021-9-18 09:40:38

很遗憾的告诉你,我用QQ来OCR

灌水王 发表于 2021-9-18 09:41:01

技术帖顶

灌水王 发表于 2021-9-18 09:41:26

Mark一下

灌水王 发表于 2021-9-18 09:41:34

居然可以发链接了,感动

灌水王 发表于 2021-9-18 09:42:12

冲啊 让阅读量上1000

zxg2000 发表于 2021-9-18 09:42:48

支持一下

hongweiyu999 发表于 2021-9-18 09:43:42

冲啊

灌水王 发表于 2021-9-18 09:44:42

支持一下

灌水王 发表于 2021-9-18 09:45:36

这么巧,我也是
页: [1]
查看完整版本: 利用轻量服务器搭建pdf在线工具箱(支持OCR!!!支持OCR!!!)