斩获 15K Star!让图片 PDF 可复制、搜索的神器
翻开十年前的工作报告,面对泛黄的纸质合同,整理成摞的文献资料 - 这些场景总离不开扫描仪,将纸张材料转成 PDF 扫描件电子版。
但生成的 PDF 文件像一张张定格照片,既不能复制文字,也无法搜索关键词。

今天推荐的开源项目:OCRmyPDF 专治各种"哑巴PDF"。它能精准识别扫描件中的文字,为图像 PDF 嵌入可检索的文本层。给扫描件装上"搜索引擎",让扫描件 PDF 开口说话。
🚀 优势
市面常见的OCR工具往往把 PDF 转成 Word 或 TXT,破坏了原有排版。不同于普通 OCR 软件粗暴转换的做法,OCRmyPDF 像给文件装上透明文字层:打开处理后的 PDF,所有文字可随意复制,页面上的表格、图片位置分毫不差。

🌟 亮点
OCRmyPDF 是一个命令行工具,可以处理多种语言,并提供诸如页面旋转、图像去斜等功能。
使用 Tesseract 引擎,支持超过 100 种语言,同时保持原始图片的分辨率不变。该工具能在不干扰其他内容的情况下无损插入 OCR 信息,并优化 PDF 文件大小,使其比原文件更小。
OCRmyPDF 还支持多核处理,能有效处理大批量的 PDF 文件。用户可以通过简单的命令行选项指定输入和输出文件类型,并控制生成 PDF/A 格式的可搜索文件。这个项目被广泛应用于需要处理大量扫描文档的用户,确保了良好的性能和稳定性。
💻如何使用
支持 Linux、Windows、macOS 和 FreeBSD。还提供适用于 x64 和 ARM 的 Docker 镜像。

开源地址:https://github.com/ocrmypdf/OCRmyPDF
OCRmyPDF 使用 Tesseract 进行 OCR,并依赖其语言包。
# 显示所有 Tesseract 语言包的列表
apt-cache search tesseract-ocr
# Debian/Ubuntu 用户
apt-get install tesseract-ocr-chi-sim # 示例:安装简体中文语言包
# Arch Linux 用户
pacman -S tesseract-data-eng tesseract-data-deu # 示例:安装英语和德语语言包
# brew macOS 用户
brew install tesseract-lang
体验使用 OCRmyPDF :
# 添加OCR层并转换为PDF/A
ocrmypdf input.pdf output.pdf
# 将图像转换为单页PDF
ocrmypdf input.jpg output.pdf
# 在原文件上添加OCR(仅在成功时修改文件)
ocrmypdf myfile.pdf myfile.pdf
# 使用非英语语言进行OCR(查找您的语言的ISO 639-3代码)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# 对多语言文档进行OCR
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# 校正(拉直倾斜的页面)ocrmypdf --deskew input.pdf output.pdf
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~
