这才是真正的小而美工具!

2022-04-28 11:56:25 12点赞 166收藏 6评论

之前也和大家聊过很多次,年年迭代的旗舰机们对于我们普罗大众来说,性能是绝对溢出的。

诚然,硬件上的性能溢出可能会在未来触发很多奇妙的「化学反应」,可在当下,这些溢出对于像我这般普通使用者来说,其实很没有「价值」。

就拿前两年被当作噱头宣传的 AI 芯片举例,每秒千亿级别的运算数,听着很吓人对不对,但实际应用中它仅仅体现在拍照效果好些,人脸识别准些,诸如此类的「细枝末节」。

换句话说,手机厂商是在为未来铺路,而我们是在为未来买单。

在这么一条前不着村后不着店的路上,溢出的性能就显得极其不接地气,除非——

有人帮你把它应用到现实。

上面这句话是我在 App Store 上见到「语音文字助手」后最直观的感受,刚好今天借着这个 App,和大家聊聊这类工具。

语音文字助手

有一说一,现在市场上很多语音文字转换的 AI 工具扒到底都是「套壳」开发,本质上是在调用提供云服务的大厂接口。

对此我并没有恶意,就像以前给大家介绍过的 OCR 工具一样,自己去申请个 API,用现成的工具白嫖大厂,何乐而不为呢。

不过这种套壳工具,最后往往为了不再用爱发电,大多走上了我帮你花钱去大厂那买量,你付费给个辛苦钱的道路。

而今天这个语音文字助手不一样,它走得就是本地运算,调用 iPhone 的神经网络芯片实现语音文字的 AI 转换。


这才是真正的小而美工具!



既然一切都在本地实现了,自然就没有调 API 接口的工具那般因为使用者过多所导致的「不稳定」,真正做到了小而美,且不要钱。

「小」是说这个 App 只有 6M 大小,界面简洁,甚至你可以不给这个 App 连网权限。


这才是真正的小而美工具!


不过与之对应的,是记得把「语音识别」这个权限给开了,倒也不用去设置里主动开启,第一次使用语音转文字的时候,别点「不允许」即可。


这才是真正的小而美工具!


「美」是说它的实用,在「语音转文字」和「文字转语音」界面,你可以选择现场录音和输字,也可以直接导入文件。


这才是真正的小而美工具!


文本文件导入支持 txt 和 pdf 两种格式,音频文件导入支持 mp3wavm4a 三种格式,鉴于 iPhone 的文件管理确实拉跨,建议大家导入文件时走「微信-用其他应用打开」选择「语音文字助手」的路数。

导入后会自动跳到转换界面,找到右上角的三个点选择「生成语音」。


这才是真正的小而美工具!


然后回到「文字转语音」的主界面,找到刚刚生成语音的记录,点进去再找右上角三个点,下载或直接分享给微信就能输出音频文件了。


这才是真正的小而美工具!


语音转文字也是这么个路数,因为一时半会找不到合适的音频,所以我自己录音说了两句。


这才是真正的小而美工具!



测试结果如下:

正常语速的普通话,语音转文字识别效果很好,处理速度很快,支持识别中英两种语言,普通话语速过快时,连读下的中文识别会有一些小地方出现错误,不过无伤大雅。

但用方言时,人工智能就不那么智能了,只能说我的「信球」被识别成了「星球」,略显尴尬。

而前面那个文字转语音,就,很 AI。

这也怨不得这个 App 不给力,实在是苹果开放的音色没得选,但你要知道,这个 App 真的不要钱。

文字转语音的字符限制在 10000 以内,大小只要不超过 512M 都 OK;语音转文字的音频大小不超过 400M,5 个小时内的音频都能识别,而且这只是单次的限量,重复使用没得问题。

微软

不过相比文字转语音,我觉得语音转文字这个功能更实用,开会录音记录,学习音频转文字复用都 OK。

而文字转语音,怎么说呢,咱们又不做视频,它还能有什么用武之地呢?寻思良久,我觉得我好像忽略了「听」这个动作。

如果我们聚焦于「听」这个动作下的文字朗读,那最值得推荐的就是微软提供的语音服务,比如 Edge 的大声朗读。

哪怕只是系统默认的音色,效果要拉开别的 AI 合成音几条街了,如果你想听,那无论是 PC 还是手机,Edge 浏览器都会是一个不错的选择。

如果我们想把转换过来的音频下载下来怎么办?

不用录屏再分离音频,试试这个开源的项目 Edge-TTS-record,调用的就是 Edge 浏览器的接口。


这才是真正的小而美工具!



使用起来很简单,你输字后点个「录制」,它转换后就能边播边录,效果和 Edge 浏览器大声朗读的效果一致。

如果我们想在手机上别的阅读应用里调用微软的这项合成语音服务怎么办?

iPhone 别想了,安卓上的一些 App 可以更换朗读引擎,只需要我们给手机下载安装一个 400K 的开源项目,TTS(作者 @ag2s20150909)。

打开 TTS 后,点击首页的「设置 TTS」,然后把首选引擎从「系统语音引擎」更换至「TTS」即可。

相信大家也发现了,你可以在这个 TTS 上设置语音引擎合成音的类型(晓晓、云扬等等),以及他们的语速、音高、风格、音量。

然后在诸如「阅读」这个工具里,点击朗读,调用的就是 TTS 引擎了。

这才是真正的小而美工具!

如果你还不了解「阅读」这个公认的神器,那来看看我一年的这篇文章吧“T要是你不知道这个追书神器,我实在是为你感到可惜”。

其实 TTS 这个工具的实现,本质上就是我上一小节说的掉微软云语音合成的接口,作者造了轮子帮大家白嫖巨硬。

但也面临着一些问题,比如随着知道的人越来越多,终有一天白嫖的额度会不够用,所以,且用且珍惜吧。

总结

其实今天这两个小节,一个说的是基于本地硬件的 AI 工具,一个说的基于云端的 AI 工具,虽然两者我们都是免费用,但自然前者更加稳定。

语音文字助手,手握 iPhone 的小伙伴可以去 App Store 里下载一下用用看,Edge-TTS-record 和 TTS 这两个开源项目。

未来是什么样的咱说不准,但永不停止探索白嫖这事,永不停止折腾新工具,大概就是我的初心。

over。

本文首发于程序员不高兴,未经授权请勿转载!

一如既往感谢各位小伙伴的支持和关注!


展开 收起

ihuman 洪恩 识字子集拼音思维ABC会员永久包3-6岁儿童早教启蒙礼物玩具 识字会员终身包

ihuman 洪恩 识字子集拼音思维ABC会员永久包3-6岁儿童早教启蒙礼物玩具 识字会员终身包

268元起

Microsoft 微软 OFFICE 365 家庭版 会员

Microsoft 微软 OFFICE 365 家庭版 会员

106元起

任天堂 Nintendo Switch《舞力全开 Just Dance》 游戏兑换卡

任天堂 Nintendo Switch《舞力全开 Just Dance》 游戏兑换卡

159元起

WPS 金山软件 WPS 超级会员 3年卡

WPS 金山软件 WPS 超级会员 3年卡

328元起

Microsoft 微软 Office 365 个人版

Microsoft 微软 Office 365 个人版

106元起

Microsoft 微软 365 家庭版 电子秘钥 正版高级Office应用 1T云存储

Microsoft 微软 365 家庭版 电子秘钥 正版高级Office应用 1T云存储

299元起

Microsoft 微软 到手18.2元/月 微软office365家庭版microsoft365增强版15个月

Microsoft 微软 到手18.2元/月 微软office365家庭版microsoft365增强版15个月

279元起

Microsoft 微软 OFFICE 365 个人版 办公软件

Microsoft 微软 OFFICE 365 个人版 办公软件

185元起

WPS超级会员Pro套餐4年卡1488天官方正版pdf转word排版

WPS超级会员Pro套餐4年卡1488天官方正版pdf转word排版

676.4元起

Microsoft 微软 office专业版永久激活码office2019增强版终身版outlook密钥

Microsoft 微软 office专业版永久激活码office2019增强版终身版outlook密钥

249元起

WPS超级会员4年套餐pdf转word排版PPT润色模板素材店铺

WPS超级会员4年套餐pdf转word排版PPT润色模板素材店铺

暂无报价

国行版 Switch体感游戏套装 《健身环大冒险》

国行版 Switch体感游戏套装 《健身环大冒险》

265元起

WPS 金山软件 会员季卡

WPS 金山软件 会员季卡

59.85元起

微软(Microsoft))win10win11专业版批量式授权企业版嵌入式正版化解决方案win11家庭版

微软(Microsoft))win10win11专业版批量式授权企业版嵌入式正版化解决方案win11家庭版

1288元起

Microsoft 微软 活动6天 office365家庭版microsoft365订阅密钥

Microsoft 微软 活动6天 office365家庭版microsoft365订阅密钥

239元起

Microsoft 微软 办公软件 优惠商品

Microsoft 微软 办公软件 优惠商品

239元起
6评论

  • 精彩
  • 最新
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
166
扫一下,分享更方便,购买更轻松