扫描版PDF→Epub格式→文字版PDF
来自: 快快的慢慢
最近想看一些书,但是没有合适的电子版。扫描版的PDF的分辨率差一点,我想要的还是epub格式或者文字版的PDF。于是本着自己动手,丰衣足食的思想,自己O了一些书,做了epub和pdf格式。正好组里一直有人问扫描版PDF转epub格式的问题,万能的Calibre对此转换的支持是微弱的,现有的阅读平台貌似支持的也不是很好(我也不了解)。最好的法子,应该还是OCR之后,重新排版。做了几本书之后,形成了一套自己的处理流程。下面简单介绍一下,如果其他更好的法子,欢迎留言。
以下ePub制作和Prince使用相关基础知识,基本上都可以在赤霓大神的《ePub指南——从入门到放弃》编著:赤霓(第2版)中找到依据。
本帖子只阐述做书流程,不做资源分享。
本帖子只阐述做书流程,不做资源分享。
本帖子只阐述做书流程,不做资源分享。
阶段一:制作ePub
1. 寻找合适的PDF资源,可以自己动手扫描手边的书,或者通过别的渠道像Z站获取。以下我以《岁月的泡沫》为例。PDF的清晰度当然是越高越好。
2. PDF里面的封面分辨率太低,简单重制了下。因为我的阅读器是文石,所以封面的比例我调成4:3了,具体的像素1600px:1200px。素材主要来自豆瓣封面。
3. 开始OCR,我使用的是夸克浏览器(不是夸克扫描王,夸克扫描王APP的功能不咋地)。以前用过全能扫描王,但是全能扫描王会吞行,单引号和省略号的处理也不好。
3. OCR之后,把文本导入到Sigil编辑器里,我习惯手动复制,纯文本粘贴。
导入之后,只有文本信息
4. 以下开始处理文本,首先处理一堆空格和页眉页脚的页码等信息。以下流程中,我会随时对html内容进行格式化。
主要利用编辑器自带的搜索替换在,代码模式中操作。
5. 处理标点符号问题。主要这几类,?!():; 把英文标点替换为中文。
同样是简单的搜索替换。
6. 处理注释。可以利用现有的注释处理插件,首先得保证索引和内容一一对应。
注释处理插件,网上应该能搜到。sigil相关插件挺多。
处理完之后就是符合多看弹注的格式了,我按照我自己的代码习惯,会重新利用正则表达式处理下。
无格式
注释内容
7. 处理断行。我一般先格式化html,然后再处理。
断行主要是页与页之间会出现这种情况,放在注释处理后进行。我主要使用正则表达式替换
8. 基本文本格式处理完之后,下面主要就是一页一页重新排版。样式表看个人习惯,我自己有符合自己习惯的基础版本,在这个基础上添加新的样式。
排版的过程多留意左边pdf断行,破折号,省略号等细节,还有外语语句中间的空格等(处理文本时,已经删除了所有的空格)。
主要针对特殊的段落,诗歌或者书信。还有正文的一些特别格式,着重号或者斜体或者不同字体。
书信,一般按照扫描版PDF中样式来。
9. 利用现有插件,进行字体子集化。
10. 使用Sigil生成目录,编辑元信息,设置封面等,最后格式化代码。
11. ePub格式的电子书基本制作完成了,剩下的还剩下自个阅读校对了。得益于现有的ocr技术,文本识别的准确率已经很高了。
可以使用多看阅读和文石自带的阅读器确认下效果了,然后再微调样式等。
阶段二:制作文字版PDF
利用Prince插件,在ePub的基础上制作文字版PDF。Prince规则具体可参见Prince官网Prince。Prince插件,网上应该能搜到。
基于个人习惯,我一般
1. 页面大小、页边距、正文大小等:
size: 15cm 20cm;
margin: 1.27cm 1.27cm 1.27cm 1.27cm;
我的每个字符大小15px
2. 封面处理
3. 页码计数器
4. 脚注,我习惯①②③④⑤这样子命名。生成pdf的过程中,我给插件开启了JavaScript功能。如想要微调后可使用JavaScript功能的Prince插件,可以私信我。
脚注的格式,我利用自己写的插件,重新处理成符合Prince规则的格式了。
最终显示
5. 目录处理
6. 其他样式微调,最终生成PDF
这样我就可以在我的文石中,看这个PDF了,后续有错再修正一下
就这些,ePub制作相关的小知识太多了。以上用到的工具和技巧,都可以从赤霓大神的从入门到放弃中找到,大家如有兴趣,可认真研读此书。
希望对大家有所帮助。
你的回应
回应请先 登录 , 或 注册相关内容推荐
最新讨论 ( 更多 )
- 乡下的书房 (江文)
- 618下的两单都到了 (华小受)
- 抽一套明朝 (诅咒蜻蜓)
- 求推荐记录藏书的app (糯米团子)
- 明朝那些事全套九本 走🐟 (情是少年坎)