版权声明:转载本站原创作品时请务必标明以下文章作者和原始出处信息。
作者:蓝色拿破仑 @ http://bbs.napolun.com
原始出处:http://www.napolun.com/OCR%E5%85%BC%E6%A0%A1%E5%AF%B9%E8%AF%A6%E7%BB%86%E6%95%99%E7%A8%8B/tid-27898.html
本区本团的主要任务之一是负责OCR和文本校对,利在减少电子书体积,方便传播知识。鉴于广大会员的学习需要,特略作讲解,以期快速上手。
在正式讲解之前,我想先对OCR或早或者校对的概念做一个解释。
我们常接触的电子书有以下几种:pdf、exe、chm、超星等。
首先介绍一下
pdf:由图片制作的通称为影印pdf,由word文稿编录的通称为文本pdf。相对于影印pdf,文本pdf体积更小,而且可以复制。
下一个是
超星:这种电子书都是由图片制作的,图片来源于相机拍摄,所以清晰度不高,这就使ocr不太容易。
我们主要面对的就是影印pdf和超星电子书。那么就需要ocr,将这些难以复制文字且体积庞大的图片摘出文字。
OCR全称Optical Character Recognition(光学字符识别),我们需要使用ocr软件使得文字对比输出,加之人工校对识别,最后输出文本。
实际上就是“由图转文”。
ocr软件有尚书7号、清华紫光、汉王文本王等几种。也有可以将影印pdf直接提取文本的简便工具,但是识别率不高。一般的ocr工作我们使用常规ocr软件来完成。文豪7600绿色简洁专业版和尚书7号都很不错。
ocr之后并不代表文本已经完全解决。因为我们在工作的时候不免疏忽少数文字,这就需要校对。一般为了方便,网络校对需要两次:初校和精校。
校对时应牢记:除了对标点、文字的更正外,更需要对文章本身的句法做修正注释,对于繁体或者竖排的文稿需要处理为中文简体。校对差错率要保持在万分之二以下。
总之这个工作是需要耐心的,没有责任心是不行的。