实验日志

实验日志


OCR算法识别性能评估

<p>欢迎使用ShowDoc!</p> <h4>OCR算法识别性能评估</h4> <p>评估OCR算法识别率的指标通常有这几种:</p> <h2>one</h2> <p>全对准确率:每张图片版面上有多个文本时候,每个文本都对的张数占总的张数的比例;</p> <p>标签全对准确率:每张图片版面上有多个文本时候,文本对的个数占总的文本个数的比例;</p> <p>平均编辑距离:平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标,可以同时反应识别错,漏识别和多识别的情况;</p> <p>字符识别准确率,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况;</p> <p>字符识别召回率,即识别对的字符数占实际字符数的比例,可以反应识别错和漏识别的情况,但是没办法反应多识别的情况,可以配套字符识别准确率一起使用;</p> <p>文本行定位为的准确率和召回率,同字符识别的准确率和召回率。主要反应文本行定位的指标,是ocr算法的重要指标</p> <h2>two</h2> <p>第一种是字符准确率,单字识别率,就是按单字算,一百个字里错5个字,识别率95%。</p> <p>第二种是字段准确率,整行识别率,一个字段算一个整体,假如100个字分为20个字段,里面错了5个字,分布在4个字段里,那么识别率是16/20=80%。</p> <p>第三种是整张准确率。通常在票据证件里面有这种计算方式,假设一张票据上有20字,4个字段,5张票上100个字,20字段,错了5个字,分布在4个字段里,分布在3张票据上。那么识别率只有2/5=40%。而且票据字段越多,容易出错的概率越高,整张识别率这个要求就越严苛。实测过程中也会有一些特别约定,说整张识别里错一两个字可以忽略的,这种再另说。</p> <p><a href="https://my.oschina.net/u/4592993/blog/4686342">https://my.oschina.net/u/4592993/blog/4686342</a></p> <p><img src="https://www.showdoc.com.cn/server/api/attachment/visitfile/sign/2d40cf9ced278d7329bcb5f6138e90c6" alt="" /></p> <p><img src="https://www.showdoc.com.cn/server/api/attachment/visitfile/sign/35c567052f79de56b691aa37e2c8999d" alt="" /></p> <p><img src="https://www.showdoc.com.cn/server/api/attachment/visitfile/sign/fef10a81c8c1e6f13d8f1fd63149908c" alt="" /></p> <p>平均编辑距离</p> <p>评估OCR算法识别率的指标通常有这几种: 平均编辑距离:平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标,可以同时反应识别错,漏识别和多识别的情况 字符识别准确率,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况 字符识别召回率,即识别对的字符数占实际字符数的比例,可以反应识别错和漏识别的情况,但是没办法反应多识别的情况,可以配套字符识别准确率一起使用。 文本行定位为的准确率和召回率,同字符识别的准确率和召回率。主要反应文本行定位的指标,是ocr算法的重要指标</p> <pre><code class="language-cpp"> 同一OCR算法对于不同质量的样本的识别率是不一样的,图像清晰的印刷扫描件的识别率绝对比手写体的识别率要高,这是肯定的,在不说明样本的前提下评估单个OCR算法识别率没有实质意义。所以要评估OCR算法应该是要做几种算法之间的对比。 那么这个对比怎么做呢?从实际应用的角度来说,通常是采用这样的步骤。首先,要准备好一批足够有区分度的样本,就是样本质量的偏差要大一些,有好有坏,这样才能检测出不同算法的优劣。然后,看可识别字符的比例。如果有质量过低的样本,OCR识别可能是不输出结果的,所以要考虑哪些算法对图像的宽容度更高。接下来才是统计准确率。在准确率的统计上也有几种不同的标准。 第一种是字符准确率,单字识别率,就是按单字算,一百个字里错5个字,识别率95%。 第二种是字段准确率,整行识别率,一个字段算一个整体,假如100个字分为20个字段,里面错了5个字,分布在4个字段里,那么识别率是16/20=80%。 第三种是整张准确率。通常在票据证件里面有这种计算方式,假设一张票据上有20字,4个字段,5张票上100个字,20字段,错了5个字,分布在4个字段里,分布在3张票据上。那么识别率只有2/5=40%。 而且票据字段越多,容易出错的概率越高,整张识别率这个要求就越严苛。实测过程中也会有一些特别约定,说整张识别里错一两个字可以忽略的,这种再另说。同样是100字错5个,用字符、字段、整张准确率来测算的结果是完全不同的,所以对比不同OCR算法时候一定要看清描述的是单字识别率、整行识别率还是整张识别率。一样的识别率99%,整张识别率可比单字识别率的含金量要大得多。</code></pre>

页面列表

ITEM_HTML