09. 目前经费有限,只够支持购买OCR一体机,后续有经费后可以做哪些升级?能升级为智慧整理平台吗?
OCR本质上只是一个文字转录工具,将图片上的文字转录为可编辑的文字,但它是古籍拓片、民国报刊、手写文书档案等文献智慧整理的基础和底座,至关重要。采购方购买“OCR一体机”后,就自动拥有了这个底座。未来,可以在这个底座的基础上升级扩展模块,使其更强大:
- OCR模型扩展:在原有一体机OCR模型的基础上扩展其他模型,以覆盖更多文献类型。目前,可选择的模型有:
- 古籍拓片OCR模型。该模型擅长处理竖排繁简体古籍拓片,在按原典识别异体字、避讳字、俗体字、生僻字方面准确率99.36%;可处理高清原色(黄底黑字)、朱印(白底红字)、朱拓(红底白字)、墨拓(黑底白字)、影印(白底黑字)等5个场景中宋、楷、仿宋等端正书体的识别;也能识别民国铅印文字,但在识别新旧式标点符号、数序符号上有问题。体验可访问:http://www.deepcivi.com/gjocr-demo.php
- 民国报刊OCR模型。该模型擅长处理晚清民国竖排繁简体铅印文献,即便文献模糊、水渍,也能有相当不错的效果,准确率99.15%;能识别竖排中英文、繁简体、新旧式标点符号、数序符号(例如①②③…⑴⑵⑶…等);能识别古籍拓片中的文字,但识别准确率不及古籍拓片OCR模型。体验可访问:http://www.deepcivi.com/mgocr-demo.php
- 手写文书档案OCR模型。该模型擅长处理行书、草书书写的竖排繁简体资料(书信、题字、日记、契约、债券等地方文献),准确率95.23%。
- 横排中英日OCR模型。该模型擅长处理印刷体、手写书体的横排中、英、日文献资料,准确率97.88%。
- 功能模块扩展:
- 文献管理模块。将OCR平台平替为智慧整理一体机,本地部署,离线断网也能用。
- 异体字-繁体-简体转换模块。为OCR添加异体字、繁体字、简体字转换功能,本地部署,离线断网也能用。
- 自动标点模块。为OCR添加自动标点模块,本地部署,离线断网也能用。
(更新时间:2025年5月28日)