电子书处理
1 制作书
1.1 从网页爬取
- request + BeautifulSoup + Chrome(或 ChromeHtmlToPdf),selenium 也可生成 PDF
- 建议用 puppeteer,见 如何将网络教程 (tutorial) 转成 PDF
- 批量删除 PDF 最后一页
1.2 扫描纸质书
参考 asset 中《DIY版简易零边距扫描仪之玻璃夹子方案》
1.2.1 用到的工具
下次试试室内灯光,之前的侧光对于不那么白的纸太暗了
- 玻璃板,超白玻璃 8mm 厚,300 X 250,不要印 3C 标志
- 俯拍架,不用带补光灯
- 蓝牙遥控器
- ComicEnhancerPro_chn 文件处理
- ABBYY FineReader + Foxit 高级 PDF,PDF 制作和 OCR
- FreePic2Pdf 书签制作
1.2.2 拍摄
- 不一定要找专门的光源,室内灯光不反光也可
- 书架第二格,俯拍架足够高,支架手臂与书架平行
- 开启拍照声音
- 开启长焦镜头,减少畸变
- 固定焦距,避免自动对焦模糊
- 高质量照片模式
- 开启网格线,保证书的文字不倾斜
- 增加手机锁屏时间
- 两个书架的宽度比书脊稍宽,避免位置移动,同时也方便翻页
- 调整到没有大的反光,另一页的反光可以用白纸遮盖(或调整光源?),手机边缘反光用创可贴遮住
- 书籍摆放位置划线,避免位置移动
- 拍摄完先不移动灯光和相机位置,准备对个别不满意的页面补拍
1.2.3 文件处理
- 文件重命名,同时检查是否漏拍
- 图像裁剪,随着厚度增加每张会有细微的偏移,因此图片可能要分多个文件夹裁剪多次
- 图像处理,封面单独处理
- 彩色 300 DPI
- 纠斜: 自动_横排, 边缘扩展
- 照度修正
- 自动对比1
- 亮度: 113
- 表面模糊: 遍数=1, 算法=Photoshop, 半径=5, 阀值=20
- USM锐化: 遍数=1, 数量=50, 半径=1.0, 阀值=0
- 黑白 600 DPI(封面彩色 600 DPI)
- 纠斜: 自动_横排, 边缘保留
- 切边: DPI=600
- 照度修正
- 自动对比1
- USM锐化: 遍数=1, 数量=50, 半径=1.0, 阀值=0
- 色彩设置: 色彩数=纯黑白, 纯黑白(二值化)选项: 阀值算法=Wolf, 窗口尺寸=50, 去斑直径=2, 去除与边缘接触的黑色区域, 边缘去毛刺
- 彩色 300 DPI
2 PDF 处理
2.1 制作
- ABBYY FineReader
- 不开启 MRC 压缩
- 因为 ABBYY 无法不改变图片,所以只能无损输出后用 Foxit 压缩
- 图像品质,自定义,不改变颜色、不允许质量损失
- Foxit 高级 PDF 优化扫描 PDF,彩色/灰度为 JPEG2000 有损,黑白为 JBIG2
- 对于大小不一的文档,OCR 识别后,页面大小改变很多。以后考虑先删除大小不一的页面,OCR 后再拼接回去
- 备选1 福昕PDF编辑器,通过微信签到获得 OCR 一天功能
- 备选2 Foxit 高级 PDF 破解版
- 书签 FreePic2Pdf
2.2 去水印
- Acrobat DC 2020 + Enfocus pitstop_13
- 安装
- Acrobat DC 运行 setup
- PitStop 安装后,替换 dll,
C:\Program Files (x86)\Adobe\Acrobat DC\Acrobat\plug_ins\Enfocus\PitStop Pro Resources
- 运行 Acrobat,编辑 - 首选项 - Enfocus PitStop Pro - 语言 - 取消与 StatusCheck 共享语言,选择 Same as Acrobat 或 English
- 偶尔弹出中文需要密钥是正常的,改语言为 English 就不弹了
- 全局更改-移除图形
- 图片水印
- 文字水印
- 指定对象大小移除,包括图片和文字
- pitstop subpath 移除
- Select inside contour 移除轮廓内的对象
- 安装
2.3 书签
- 自动添加书签
- 用 PDF 补丁丁 根据样式识别标题,然后手动调整,见 作者博客教程
- 对于识别后出现不规律空格的书签,可以用 claude 来智能移除空格
- 手动改书签
- 先提取书签,然后编辑 FreePic2Pdf.itf 和 FreePic2Pdf_bkmk.txt,最后挂书签 目录可从豆瓣或其它 PDF 中提取
- 用 PdgCntEditor 调整页码偏移量 FreePic2Pdf.itf 设置 BasePage 目录页码基准(一般与 TextPage 相同),ContentsPage 目录绝对页码,TextPage 正文绝对页码,见 FreePic2Pdf 帮助文档中的接口文件格式说明 FreePic2Pdf_bkmk.txt 为书签,tab 控制目录层级,标题与页码间 tab 分隔,页码基准前的页面用负数表示 notepad++ 常用正则,添加二级标题缩进
^(\d+.\d+)
替换为\t\1
。添加标题与页码的 tab,\s+(\d+)$
替换为\t\1
- 软件作者博客
2.4 模糊pdf变清晰
- 模糊pdf变清晰 先提取一张图片,尝试调整参数,然后再批量处理
2.5 HTML 转 PDF
单个 HTML 转 PDF
- 为了保留书签,另存为 HTML,并用 word 打开
- ALT + F9 批量修改超链接指向当前文档而非网址,一般是删除网址部分,只保留标题指向
- 另存为 PDF,选项中保留书签
3 epub 等阅读器格式处理
3.1 转换
- 格式 azw3,可支持自定义字体,mobi 格式(new、old、both) 都不支持。两种选择
- 需要书籍、笔记同步功能,但无法显示封面。用 calibre 转换为 mobi both 格式(old 格式会被转为 azw,new 格式不让发送),然后使用邮箱发送。此时 amazon 会转为 azw3,由于是 PDOC 类型所以无法显示封面。如 kindle 下载后用 MobiMetaEditor 改为 EBOK 类型则会导致文档无法同步,参见 为何推送 KF8 标准 MOBI 电子书不显示封面。有趣的是此时 App 端可以显示封面
- 不需要同步功能,可以显示封面。用 calibre 转换为 azw3,发送到 kindle,实际上是将封面放入
kindle:\system\thumbnails\thumbnail_ASIN_EBOK_portrait.jpg
,对于中文书籍还需将拼音文件名改回,参见 两种方法来给 Kindle 设置图书封面
- 有些书籍打开卡死,重新设置文本编码为 utf-8
- calibre 中文书籍处理
- 首选项–保存图书到磁盘,去掉3个勾选项,分别是:分别保存封面、使用OPF文件保存元数据、将非英语字符转换为对应英语字符
- 在保存模板中将内容改为: {title}。如果标题不对也需要修改
- 保存设置,以后使用时选择
保存图书到磁盘
方式
3.2 移除硬回车
- 使用 calibre 的启发式处理,“取消换行因子”来移除
- 使用 amazon 发邮件 convert 方式,转换 pdf 为 azw3(弊端是回车替换为了空格,没有目录),但此时打开会导致 kindle 卡死,需要再用 calibre 设置输入文本编码为 utf-8
- 更麻烦的方法是,使用正则表达式,转换成 docx 处理完再转回来
3.3 去 DRM
- Kindle
amazon 购买时卡单,先取消订单,然后删除信用卡,重新添加一下
- 多次重复扣款可联系中文客服
对于日本 amazon,要 clash 开系统代理才能登录,登录选择 co.jp
最新的移除 kindle DRM 方法 相关软件在 DRM 文件夹
- 装 新版DeDRM_tools
- 装 KFX Input 插件
- 装 Kindle_for_PC_v2.3.70840
- 问题:系统用户名是中文或者裁剪版的 win10 可能无法去 drm,换个系统
calibre 调试方法,查看 log
1
2
3Ctrl+R restarts in Normal Mode
Ctrl+Shift+R restarts in Debug Mode
Ctrl+Alt+Shift+R restarts in Safe Mode (no optional plugins)
旧方法:两种方法都要用 1.24 的 kindle for pc(安装文件在 windows 环境-不常用中),All DRM Removal 的解释,并找到下载的电子书
我的文档\My Kindle Content\ASIN_EBOK
- All DRM Removal for Windows 终身版,224。感觉这个就是 DeDRM 的图形封装。用
All DRM Removal for Windows
破解版,keygen 会报木马,在沙盒中打开获取注册信息即可,切换到 kindle 进行破解
- All DRM Removal for Windows 终身版,224。感觉这个就是 DeDRM 的图形封装。用
- Google Books,用到 ADE_2.0,装 .net 3.5,Calibre 的 DeDRM 添加 default_key(与 ADE 装在一个系统),拖动下载的 PDF 到 Calibre 自动解密
- Kobo 用 AllDRMRemoval (附带注册机)移除 DRM
3.4 繁简转换
【Calibre外挂】 简转繁功能大揭密、Calibre 使用教程之电子书繁体字转简体字
- Calibre 安装 Chinese Text Conversion 插件,编辑书籍,点击
文
,台湾繁转简,直排转横排,保存副本后 - 再用编辑单个书籍,加载 csr 替换文件(见资源目录),前面的 4 个引号替换可以删除
- 对于带图片的文档(漫画),输出配置选择 tablet,不改变图片质量
步骤 1 要先于 2 因为直接替换直排的文字输出有问题
3.5 生成目录
- 编辑书籍,工具 – 目录 – 编辑目录,里面有各种生成目录的方式