10. OCR一体机的准确率怎么样,相比于其他同类产品有哪些独特之处?
当前市面上已有不少古籍OCR产品,总体来讲各有千秋,而且宣传上都宣称自己达到了99%以上的准确率。实际上,普通用户对90%以上的准确率就不会有什么概念了,多一点,少一点,好像都一样,不太能分辨得出来。通过对同类古籍OCR模型产品综合测评,我们的优势:
- 支持竖排版式9.9万超大字符集(涵盖Unicode扩展集)文字识别,异体字还原度高,准确率达99.36%
- 支持原色古籍(黄底黑字)、朱印(白底红字)、朱拓(红底白字)、墨拓(黑底白字)、黑白影印(白底黑字)五个场景自动识别
- 支持密集文字检测识别、经注混排自动分离识别
- 支持一页多栏、犬牙交错文本排序与顺序还原
- 支持1-N个PDF或图片批量并发处理,平均速率1-3页/秒
- 支持自定义最长边,适配大幅面(卷轴、摩崖拓、碑拓等)、常规幅面(半页/双半页/筒子页线装书)、残片(最小5cmx5cm)
- 支持超复杂场景下良好用户体验的实时增、删、改(手动拉列框OCR识别、手动拉矩形区块批量识别、手动拉多边形区块批量识别)
- 支持PDF或IMG的远程URL地址拉取识别
- 支持对已OCR文本的拉取读取
- 支持集外字截图建档
- 支持书内插图截取建档
- 支持多格式文本输出(TXT、DOCX)
- 支持图文对校(线上“校对模式”对校、线下生成_compare.jpg对校图片)
- 支持本地离线断网部署,确保文献安全
- 支持模型扩展与模块化升级
- OCR模型:可增加民国报刊OCR模型、手写文书档案OCR模型
- 功能扩展:可扩展“本地版异体字-正体繁体/简体模块”、“本地版自动标点模块”
- 平台升级:可扩展“文献智慧整理模块”,将OCR平台升级为“古籍拓片智慧整理平台”,实现元数据+PDF挂接+OCR识别
- 一次购买,永久拥有,生命周期内无需年服务费、无页码數量限制
如何對OCR進行选型,可以参考下列文章:
1. 对密集版面文字的检测与识别能力超强(点击看全文)
2. 对异体字、生僻字、繁体字、俗体字、避讳字的识别能力(点击看全文)
3. 1个模型对N个通用场景文字检测识别的能力(点击看全文)
4. 对OCR文本的排序能力市场排第一(点击看全文)
5. 支持采购整机到本地部署,一次购买,永久拥有,保障文献安全
还有这条信息,可能对你有用:
(更新时间:2025年4月15日)