OCR算法识别性能评估

欢迎使用ShowDoc！ <h4>OCR算法识别性能评估</h4> 评估OCR算法识别率的指标通常有这几种： <h2>one</h2> 全对准确率：每张图片版面上有多个文本时候，每个文本都对的张数占总的张数的比例； 标签全对准确率：每张图片版面上有多个文本时候，文本对的个数占总的文本个数的比例； 平均编辑距离：平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标，可以同时反应识别错，漏识别和多识别的情况； 字符识别准确率，即识别对的字符数占总识别出来字符数的比例，可以反应识别错和多识别的情况，但无法反应漏识别的情况； 字符识别召回率，即识别对的字符数占实际字符数的比例，可以反应识别错和漏识别的情况，但是没办法反应多识别的情况，可以配套字符识别准确率一起使用； 文本行定位为的准确率和召回率，同字符识别的准确率和召回率。主要反应文本行定位的指标，是ocr算法的重要指标 <h2>two</h2> 第一种是字符准确率，单字识别率，就是按单字算，一百个字里错5个字，识别率95%。 第二种是字段准确率，整行识别率，一个字段算一个整体，假如100个字分为20个字段，里面错了5个字，分布在4个字段里，那么识别率是16/20=80%。 第三种是整张准确率。通常在票据证件里面有这种计算方式，假设一张票据上有20字，4个字段，5张票上100个字，20字段，错了5个字，分布在4个字段里，分布在3张票据上。那么识别率只有2/5=40%。而且票据字段越多，容易出错的概率越高，整张识别率这个要求就越严苛。实测过程中也会有一些特别约定，说整张识别里错一两个字可以忽略的，这种再另说。 <a href="https://my.oschina.net/u/4592993/blog/4686342">https://my.oschina.net/u/4592993/blog/4686342</a> <img src="https://www.showdoc.com.cn/server/api/attachment/visitfile/sign/2d40cf9ced278d7329bcb5f6138e90c6" alt="" /> <img src="https://www.showdoc.com.cn/server/api/attachment/visitfile/sign/35c567052f79de56b691aa37e2c8999d" alt="" /> <img src="https://www.showdoc.com.cn/server/api/attachment/visitfile/sign/fef10a81c8c1e6f13d8f1fd63149908c" alt="" /> 平均编辑距离 评估OCR算法识别率的指标通常有这几种：平均编辑距离：平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标，可以同时反应识别错，漏识别和多识别的情况字符识别准确率，即识别对的字符数占总识别出来字符数的比例，可以反应识别错和多识别的情况，但无法反应漏识别的情况字符识别召回率，即识别对的字符数占实际字符数的比例，可以反应识别错和漏识别的情况，但是没办法反应多识别的情况，可以配套字符识别准确率一起使用。文本行定位为的准确率和召回率，同字符识别的准确率和召回率。主要反应文本行定位的指标，是ocr算法的重要指标 <pre><code class="language-cpp"> 同一OCR算法对于不同质量的样本的识别率是不一样的，图像清晰的印刷扫描件的识别率绝对比手写体的识别率要高，这是肯定的，在不说明样本的前提下评估单个OCR算法识别率没有实质意义。所以要评估OCR算法应该是要做几种算法之间的对比。那么这个对比怎么做呢？从实际应用的角度来说，通常是采用这样的步骤。首先，要准备好一批足够有区分度的样本，就是样本质量的偏差要大一些，有好有坏，这样才能检测出不同算法的优劣。然后，看可识别字符的比例。如果有质量过低的样本，OCR识别可能是不输出结果的，所以要考虑哪些算法对图像的宽容度更高。接下来才是统计准确率。在准确率的统计上也有几种不同的标准。第一种是字符准确率，单字识别率，就是按单字算，一百个字里错5个字，识别率95%。第二种是字段准确率，整行识别率，一个字段算一个整体，假如100个字分为20个字段，里面错了5个字，分布在4个字段里，那么识别率是16/20=80%。第三种是整张准确率。通常在票据证件里面有这种计算方式，假设一张票据上有20字，4个字段，5张票上100个字，20字段，错了5个字，分布在4个字段里，分布在3张票据上。那么识别率只有2/5=40%。而且票据字段越多，容易出错的概率越高，整张识别率这个要求就越严苛。实测过程中也会有一些特别约定，说整张识别里错一两个字可以忽略的，这种再另说。同样是100字错5个，用字符、字段、整张准确率来测算的结果是完全不同的，所以对比不同OCR算法时候一定要看清描述的是单字识别率、整行识别率还是整张识别率。一样的识别率99%，整张识别率可比单字识别率的含金量要大得多。</code></pre>

实验日志

OCR算法识别性能评估

页面列表