妙啊,这个网站你就是断了网也可以用!
创作立场声明:本人长年热衷于挖掘各种好玩有趣或稀奇古怪的电脑软件和手机 App,写文科生都能看得懂玩得转的玩机教程,期待和大家的深入探讨交流。
本文首发于网罗灯下黑,未经授权请勿转载
掐着手指头算算,我介绍过的 OCR 工具真挺多的了,从天若 OCR 到白描小程序,我测试过好用后都第一时间安排给了大家。
但无一例外,随着这些工具本身的名气越来越大,用的人越来越多,相信工具背后的服务器压力也越来越大。
所以到后面都走上了形式各异的收费道路。
可能正是在这样的转变中,才渐渐有了 QQ 截图自带的那个文字识别才是 yyds 的说法。
这么说确实没错,图省事的时候与其调用专精工具,这些集成功能会显得更方便。
但无论是天若、白描,还是 QQ 文字识别,这些 OCR 工具本事其实有一个共通点——
调用的都是大厂 OCR 文字识别接口。
不同于白描深耕百度的 OCR 接口,天若 OCR 这样的工具更是聚合起了多个平台的接口,这也是当时我安利它的主要原因。
那接口是个好东西嘛?是,但也不全是。
调用接口,意味着你能享受到大厂经过大量训练得到的模型,可同时,也意味着这些工具真的离不开网络,需要上传图片到服务器,再根据模型识别后产出结果。
本地能离线的 OCR 工具不是没有,但正版价格不菲,体型也真的不小,就在这个时候,有一个 OCR 工具进了我的收藏夹,这个收藏夹可不是虚指,而是实打实的浏览器收藏夹。
或许你已经猜到了,我说的就是那个在线工具「PearOCR 文字识别」。
PearOCR
两个月前走红的 PearOCR 是什么可能不少小伙伴已经知道了,所以我们直接抛出它的优点:
PearOCR 使用的是自研 OCR 识别引擎,脱离大厂的 API 接口。
不需要下载软件,全部识别运算都是纯前端完成,换句话说都是本地干活,断了网都能用,所以放心,图片数据自然也不会上传。
完全免费,无需登录,还没有次数和文件大小限制。
至于为啥要做成网页,据作者所言,把 ocr 做成一个网页只是为了无需下载点开即用。
所以严格来看 PearOCR 是披着在线的离线工具,「在线」的点在于当你第一次打开网页,有个一闪而过的加载过程。
说实话,这几条优点都深得我心。对比那些需要下载安装、登录的工具,PearOCR 真的是独秀一枝。
更何况它还是完全免费,这还要啥自行车啊。
使用起来也很随意,PearOCR 支持拖动图像识别、本地图片识别、识别剪贴板的图片三种方式。
但识别效果呢?
不说别的了,让我们先来看一下 PearOCR 的效果。
识别效果
一般来说,我们需要识别的种类就是那几种:正常印刷文字、手写体、表格、英文。
所以让我们按这个顺序,一个个来瞅瞅 PearOCR 的识别效果。
正常字体
我觉得先截图再用 OCR 工具识别,应该是我们生活里最常见到的识别场景吧,比如那些百度文库中不能复制的文字,随手一截图粘贴到 PearOCR 就能识别。
当然,别忘了在识别前选中「读剪切板」:
担心大家看不清图片,所以我把大图放这了。
这次识别出现了两个问题,首先是句号本身没有被识别,其次是最后一个「蠢」字识别成了「鑫」字。
当然,只能识别截图的O CR 工具不是好 OCR,我还试了个书摘的实拍图:
效果很好,没有出现异常。
手写字体
相对来说手写体一般是比较难识别的,之前调用百度接口的天若 OCR 和白描表现都很不错,但 PearOCR 的手写识别明显不过关。
表格
某种意义上说表格图片和手写字体的难度是可以相提并论的,我找了个以前文章里的表格,PearOCR 只是把表格中的文字都识别出来了。
但格子本身却没有识别,在准确率的角度上来看,和前面的正常字体基本没差。
英文
最后是一段英文。
对了,PearOCR 本身在识别前,是可以选择语言的,虽然简体中文也能识别英文,但效果多多少少差点意思。
至于换成英文后的效果嘛,识别倒是都识别出来了,只是不少单词之间都是直接连在一起,少了那个该有的空格。
这个就有点尴尬了,如果你想粘贴,就必须要手动加上空格才行。
至此,我们能得出 PearOCR 的两点不足,一点是手写字体的识别精度有待提升,另一点是识别后的排版有待精进。
其他
其实在识别图片的时候,我还发现 PearOCR 是有不少其它功能的。
比如大图预览、显示文本位置:
在识别后的结果中还可以以纯文本形式显示、直接复制、编辑、文本下显示原图和转换成 PDF,方便使用者后续归档。
当然,还有个以表格的方式显示,前面是识别文字的置信度,后面是对应文本。
对于置信度低的文字,还可以设置阈值及颜色,然后高亮显示疑似错误的文本。
最最关键的是,作者为 PearOCR 配上了 PWA。
这也意味着,你可以联网时,把这个网页做成能在桌面显示的 App,当然,Edge 浏览器的应用模式也 ok。
然后我们就可以把 PearOCR 变成本地工具了,在完全离线的状态下也能正常使用它,为此我还专门禁用了网卡测试了一下,没问题。
你看,我把网都关了,找了个图片照样可以识别,这一点真的很 nice。
其实说到底,支持离线使用,是我这次决心把 PearOCR 安利给大家的最主要的原因。
结语
所以大家也看到了,PearOCR 的识别效果确确实实还有不足,但基于这种纯前端实现的识别引擎,没有丝毫数据泄露的风险,可以离线搞定识别需求的工具,真的不多见,何况它又是那般随用随走。
如果 OCR 功能对于你来说不是经常需要用到,而且对准确度要求也不高,最关键的是要在一个没网的环境中使用,那么推荐你试试 PearOCR 这个「在线」识别工具。
在 GitHub 上我还看到了作者有做 PC 版本的打算,对于办公室不让联网的小伙伴来说,这绝对算得上是福音了。
有需求感兴趣的小伙伴还不快去试试。
本文首发于网罗灯下黑,未经授权请勿转载!
一如既往感谢各位小伙伴的支持和关注!
wingo1
校验提示文案
潮SoSerious
校验提示文案
只想七休
校验提示文案
like2010
校验提示文案
like2010
校验提示文案
like2010
校验提示文案
like2010
校验提示文案
只想七休
校验提示文案
wingo1
校验提示文案
潮SoSerious
校验提示文案