俄语OCR识别方法推荐
业务那面收到了一个俄语客户发来的投标文件,时间非常紧急,从文件接收到出具方案和报价总共只有5天时间,但是在第一步文件的翻译上就遇到了困难,因为客户发来的投标文件是PDF版本,里面是图片格式的,最重要的是内容为俄语,所以没办法复制粘贴来用谷歌等软件进行翻译,但如果人工翻译的话几十页的文件光翻译就要一两天,再加上技术部根据文件内容设计方案,最后再核算报价,5天时间肯定来不急,所以只能想办法压缩翻译时间。
我第一个想到的就是通过OCR软件来识别,然后再进行复制粘贴到翻译软件进行翻译,但出师不利,WPS会员的OCR识别失败,出来的几乎是乱码,于是尝试用Adobe Acrobat Reader进行OCR识别,发现识别出来的内容是好的没有问题,但一复制粘贴,出来的就又是乱码了。
下面是用软件OCR后的结果,看着还挺正常的吧,但一复制粘贴就是乱码
下面是复制粘贴后的情况
其它软件识别后的情况,输出的直接就是乱码
软件识别看来是没办法了,于是尝试在线识别,尝试了6-7个识别都不理想,乱码的居多,有个别识别率稍好但也只是稍好,还是有乱码,而且还有限制,最多只能识别10页。
最后发现了一个识别效果好的,在识别页面可以设置原文件语言,识别后的文件几乎没有乱码,而且复制粘贴后也没有问题,所以最终决定用这个在线识别
https://convertio.co/zh/ocr/russian/
下面是识别的界面,直接上传文件后设置好语言后开始识别
这是识别后的效果,总体上不错,基本上没问题
这是复制粘贴后的情况,粘贴后也显示正常,翻译出来也没有问题
唯一的缺点是只能识别10页,如果想识别更多需要注册并付费购买
下面是付费的情况,7.99美元100页,可以拖动进度条进行设置以选择更多
点击继续后会弹出注册界面,不过我因为不需要购买所以没有注册,需要的朋友可以注册下以完成后面的购买
那除了注册购买外有没有其它方法呢,答案是有的,不过可能要想想办法,比较麻烦的办法就是用别的电脑登录这个网址,那就可以再识别10页了,因为在识别页面可以设置从哪页到哪页开始识别,比如第一台电脑识别1-10页,第二台电脑识别11-20页,以此类推,公司如果电脑多,那几十页甚至是上百页应该也没问题,缺点就是比较麻烦。
那有没有其它方法呢,我本以为这个网页是根据浏览器记录来跟踪的,但是换了一个其它浏览器并开了无痕模式还是发现网站能识别到之前已经识别过了,无法再进行识别了,所以猜想网站可能是通过定位电脑的IP来判断是否进行过识别,所以换了另一个思路,通过梯子全局模式来换节点IP,发现真的可以,所以自己一台电脑只要你节点IP多,那么几乎也可以算是无限识别了,至少满足正常的使用需求是没问题的。
虽然上面尝试了软件的方法,包括WPS, adobe acrobat, 其它几个软件等都失败了,不过我还是不死心,所以网上查询了下,最后好多人推荐ABBYY这个软件,所以就再次尝试了下
网站地址:https://pdf.abbyy.com/
不过这个软件是收费的,好在个人版本有免费的7天试用期,这个足够了,所以下载安装试试
选择Download free trial
需要填写注册信息以获取下载链接
软件下载安装后,打开界面如下,选择OCR编辑器,打开需要OCR的文件
不过先需要对识别这里进行设置,否则识别出来也同样是乱码,点击识别处的下拉按钮,默认使用的是自动选择,这个需要修改下,点击下面的更多语言,选择手动指定,下面点击俄语,确定
以下是识别的结果情况,效果还是非常不错的
缺点当然就是只能试用7天了,这个目前无解
不论是上面的网页识别还是刚才的ABBYY软件,如果条件允许的话还是建议大家付费支持下吧。
更多文章欢迎关注我个人微信公众号“外贸营”