中国拿破仑 最全面的中文拿破仑站点 chinese napoleon 拿破仑个人相关资料 chinese napoleon 拿破仑战争介绍及相关资料 chinese napoleon 拿破仑情史 chinese napoleon 拿破仑时代的杰出人物 chinese napoleon 辉煌的拿破仑时代 chinese napoleon 关于拿破仑的其它资料
拿破仑主题论坛    
chinese napoleon     中国拿破仑  chinese napoleon  拿破仑简介  chinese napoleon  拿破仑评论  chinese napoleon  拿破仑论坛  chinese napoleon  拿破仑传  chinese napoleon  拿破仑法典  chinese napoleon  拿破仑文选  chinese napoleon  拿破仑战争  chinese napoleon  拿破仑军事语录  chinese napoleon  我与拿破仑
中国拿破仑 最全面的中文拿破仑站点
中国拿破仑 最全面的中文拿破仑站点

OCR兼校对详细教程

chinese napoleon

中国拿破仑论坛 » 国家博物馆(Musée du Premier Empire) » OCR兼校对详细教程

chinese napoleon

蓝色拿破仑 2008-7-17 13:04

版权声明:转载本站原创作品时请务必标明以下文章作者和原始出处信息。
作者:蓝色拿破仑 @ http://bbs.napolun.com
原始出处:http://www.napolun.com/OCR%E5%85%BC%E6%A0%A1%E5%AF%B9%E8%AF%A6%E7%BB%86%E6%95%99%E7%A8%8B/tid-27898.html
本区本团的主要任务之一是负责OCR和文本校对,利在减少电子书体积,方便传播知识。鉴于广大会员的学习需要,特略作讲解,以期快速上手。

在正式讲解之前,我想先对OCR或早或者校对的概念做一个解释。


我们常接触的电子书有以下几种:pdf、exe、chm、超星等。

首先介绍一下pdf:由图片制作的通称为影印pdf,由word文稿编录的通称为文本pdf。相对于影印pdf,文本pdf体积更小,而且可以复制。

下一个是超星:这种电子书都是由图片制作的,图片来源于相机拍摄,所以清晰度不高,这就使ocr不太容易。

我们主要面对的就是影印pdf和超星电子书。那么就需要ocr,将这些难以复制文字且体积庞大的图片摘出文字。

OCR全称Optical Character Recognition(光学字符识别),我们需要使用ocr软件使得文字对比输出,加之人工校对识别,最后输出文本。实际上就是“由图转文”。


ocr软件有尚书7号、清华紫光、汉王文本王等几种。也有可以将影印pdf直接提取文本的简便工具,但是识别率不高。一般的ocr工作我们使用常规ocr软件来完成。文豪7600绿色简洁专业版和尚书7号都很不错。

ocr之后并不代表文本已经完全解决。因为我们在工作的时候不免疏忽少数文字,这就需要校对。一般为了方便,网络校对需要两次:初校和精校。

校对时应牢记:除了对标点、文字的更正外,更需要对文章本身的句法做修正注释,对于繁体或者竖排的文稿需要处理为中文简体。校对差错率要保持在万分之二以下。

总之这个工作是需要耐心的,没有责任心是不行的。



蓝色拿破仑 2008-7-17 13:09

未完待续

Zeus 2008-8-24 18:22

ocr的任务我现在可以完成一部分 有活没?

蓝色拿破仑 2008-8-25 09:46

现在主要是校对了,OCR需要一次呵成,我手头还没有多少论文类的小篇幅材料。

页: [1]
推荐主题
chinese napoleon
chinese napoleonchinese napoleon白袍巫师萨鲁曼 sswaffen
chinese napoleonSS党卫军胸像 信玄公
chinese napoleon小谈文化专制(更新完毕) KleinKlauss
chinese napoleon1799年瑞士战局全景简叙(正文见7楼) 朔风
chinese napoleon条顿骑士Teutonic Grand Master XIV cen 信玄公
chinese napoleon
 
chinese napoleon
返回首页 返回顶部
chinese napoleon
chinese napoleon 版权所有 2001-2006 中国拿破仑 All Rights Reserved
版权申明   关于本站   友情链接   联系我们