1. 古籍拓片智慧整理一体机（文章级，Pro版）

一、基础配置

二、智慧整理流程

智慧整理流程有两种流程：第一种是已经有了古籍拓片的元数据+元数据对应PDF的URL地址，选择流程一；第二种是您手头没有任何元数据，只有PDF文件，选择流程二。

流程一：批量导入元数据+PDF的URL 流程

（批量导入→自动OCR→三审三校形成OCR定本→三审三校形成标点整理本定本→文章/知识片段抽取→发布）

批量导入（花费时间：操作10秒）

步骤1：将已有数据按EXCEL模板准备

步骤2：将Excel转为UTF8编码的csv文件

步骤3：上传csv文件+字段映射

步骤4：导入，直至完毕

AI自动OCR（首次识别速度，1-3页/秒；此后直接拉取图文对照的OCR识别结果，用时仅需1-5秒）

首次访问自动OCR识别。首次打开任意一条记录，OCR引擎会直接根据URL地址拉取PDF进行自动识别。识别完毕，会将缩略图、文字、OCR图文对照自动更新到内容管理系统，全程无需任何人工介入。OCR识别速度，大约1-3页/秒。

一旦首次识别完成，任何人再次访问该条目，会自动拉取首次识别的全部结果，用时只需1-5秒。

三审三校形成OCR定本（人工逐列逐字比对，形成最接近原典用字、目录层级的OCR图文，用于长期保存与派生服务）

为避免针对不同使用目的反复校对OCR文本，最佳解决方案是采用”三审三校”流程建立”定本OCR”。该定本严格遵循原典文字特征（包括繁体字、俗体字、避讳字、生僻字等），形成权威的基准文本。此后所有衍生用途（如出版、校勘、辑佚等）均可由此定本派生，确保文本源头的准确性和一致性。包含如下步骤：

步骤1：文字校对。OCR模型对文字的识别率超过99%，只需要对极个别文字进行人工校对，使之按照原典。

步骤2：h标签人工标注与校对。原书一般有序、目录、卷次、篇、章、节、小节、题、小题、跋等层级信息，这些信息通过h1、h2、h3、……等h标签标注。

步骤3：pb标签标注和核校。书是由书-页码-行款组成的，为了方便书-页码-行款的双向可逆追溯，我们按页设计了page break分页编码规则，也就是pb标签。这个pb标签在自动OCR时会自动生成，但需要人工核校或插入，以使得页码和版面更准确。

只需上面3步，即可形成“OCR定本”。

AI辅助三审三校形成标点整理定本（形成适合在线阅读、在线查阅、纸质出版的整理本）

古籍拓片/民国图书/民国报纸/民国期刊的内容要能被广泛使用，需要形成符合当代用字习惯、阅读习惯、使用习惯的整理本。需要将上一步形成的“OCR定本”进行标点、异体字转繁体或简体、提要、分类等整理。包含如下步骤：

步骤1：一键<br>标签转<p>标签（用时仅1秒左右）。

步骤2：先确定所有文本转成繁体还是简体（根据目标用户来定），然后一键转成繁体或简体（用时仅1秒左右），准确率接近100%

步骤3：一键去除非字符号（用时仅1秒左右）。将“OCR定本”中的非字符号去掉。

步骤4：一键AI辅助标点（速度：1000/秒左右）。速度大约为每秒1000字，准确率接近100%。标点完毕后，人工核校AI标点是否准确。

步骤5：一键AI辅助提要（用时仅5秒左右，准确率接近100%）。利用AI为OCR的内容撰写1000字左右的提要，人工浏览核校即可。

步骤6：人工更新或核验分类。

文章/知识片段/图表抽取

文章/知识片段抽取

步骤1：切换到“标注模式”

步骤2：在文本框中依次：选中文字+标题按钮、选中文字+副标题按钮、选中文字+作者按钮、选中文字+时间按钮、选中文字+全文按钮、是否勾选“合并相同标题”，然后点击“书报刊内文章/知识抽取”按钮

1. 古籍拓片智慧整理一体机（文章级，Pro版）

步骤3：在弹出对话框中核对信息，添加“分类”“主题词”，点击“确定”

1. 古籍拓片智慧整理一体机（文章级，Pro版）

图表抽取

步骤1：切换到“标注模式”

步骤2：点击“书刊报内图表抽取”，在左边大图上拉框，会跳出一个对话框

步骤3：填写相关内容，点击“确定”

1. 古籍拓片智慧整理一体机（文章级，Pro版）

流程二：手动新增条目流程

（手动新增条目+上传PDF全文自动OCR识别→三审三校形成OCR定本→三审三校形成标点整理本定本→文章/知识片段抽取→发布）

手动新增条目+上传PDF全文自动OCR识别

步骤1：在后台“新建”-“产品”，填入标题（标题名称可以为任意名称，后面可以在OCR后用OCR的文字提取文本进行半自动编目），发布即可。用时2秒。

步骤2：在前端上传PDF文件，进行自动OCR识别即可。（根据PDF文件页数的多少，一般1-3页/秒）

三审三校形成OCR定本（人工逐列逐字比对，形成最接近原典用字、目录层级的OCR图文，用于长期保存与派生服务）

步骤1：文字校对。OCR模型对文字的识别率超过99%，只需要对极个别文字进行人工校对，使之按照原典。

只需上面3步，即可形成“OCR定本”。

AI辅助三审三校形成标点整理定本（形成适合在线阅读、在线查阅、纸质出版的整理本）

步骤1：一键<br>标签转<p>标签（用时仅1秒左右）

步骤2：先确定所有文本转成繁体还是简体（根据目标用户来定），然后一键转成繁体或简体（用时仅1秒左右），准确率接近100%

步骤3：一键去除非字符号。将“OCR定本”中的非字符号去掉（用时仅1秒左右）。

步骤4：一键AI辅助标点。速度大约为每秒1000字，准确率接近100%。标点完毕后，人工核校AI标点是否准确。

步骤5：一键AI辅助提要。利用AI为OCR的内容撰写1000字左右的提要，准确率接近100%，人工浏览核校即可。

步骤6：人工更新或核验分类。

文章/知识片段抽取

步骤1：切换到“标注模式”

1. 古籍拓片智慧整理一体机（文章级，Pro版）

步骤3：在弹出对话框中核对信息，添加“分类”“主题词”，点击“确定”

1. 古籍拓片智慧整理一体机（文章级，Pro版）

图表抽取

步骤1：切换到“标注模式”

步骤2：点击“书刊报内图表抽取”，在左边大图上拉框，会跳出一个对话框

步骤3：填写相关内容，点击“确定”

1. 古籍拓片智慧整理一体机（文章级，Pro版）

在售产品

OCR一体机系列

售前常见问题

开箱与安装

首次使用指南

异体字显示

页面布局与功能简介

OCR操作流程

OCR一体机机型

智慧整理一体机系列

售前常见问题

开箱与安装

智慧整理一体机机型（Plus版，文献级）

智慧整理一体机机型（Pro版，文章级）

1. 古籍拓片智慧整理一体机（文章级，Pro版）

一、基础配置

二、智慧整理流程

流程一：批量导入元数据+PDF的URL 流程

批量导入（花费时间：操作10秒）

AI自动OCR（首次识别速度，1-3页/秒；此后直接拉取图文对照的OCR识别结果，用时仅需1-5秒）

三审三校形成OCR定本（人工逐列逐字比对，形成最接近原典用字、目录层级的OCR图文，用于长期保存与派生服务）

AI辅助三审三校形成标点整理定本（形成适合在线阅读、在线查阅、纸质出版的整理本）

文章/知识片段/图表抽取

文章/知识片段抽取

图表抽取

流程二：手动新增条目流程

手动新增条目+上传PDF全文自动OCR识别

三审三校形成OCR定本（人工逐列逐字比对，形成最接近原典用字、目录层级的OCR图文，用于长期保存与派生服务）

AI辅助三审三校形成标点整理定本（形成适合在线阅读、在线查阅、纸质出版的整理本）

文章/知识片段抽取

文章/知识片段抽取

图表抽取

三、常问问题

发表回复

OCR一体机系列

售前常见问题

开箱与安装

首次使用指南

异体字显示

页面布局与功能简介

OCR操作流程

OCR一体机机型

智慧整理一体机系列

售前常见问题

开箱与安装

智慧整理一体机机型（Plus版，文献级）

智慧整理一体机机型（Pro版，文章级）

1. 古籍拓片智慧整理一体机（文章级，Pro版）

一、基础配置

二、智慧整理流程

流程一：批量导入元数据+PDF的URL 流程

批量导入（花费时间：操作10秒）

AI自动OCR（首次识别速度，1-3页/秒；此后直接拉取图文对照的OCR识别结果，用时仅需1-5秒）

三审三校形成OCR定本（人工逐列逐字比对，形成最接近原典用字、目录层级的OCR图文，用于长期保存与派生服务）

AI辅助三审三校形成标点整理定本（形成适合在线阅读、在线查阅、纸质出版的整理本）

文章/知识片段/图表抽取

文章/知识片段抽取

图表抽取

流程二： 手动新增条目流程

手动新增条目+上传PDF全文自动OCR识别

三审三校形成OCR定本（人工逐列逐字比对，形成最接近原典用字、目录层级的OCR图文，用于长期保存与派生服务）

AI辅助三审三校形成标点整理定本（形成适合在线阅读、在线查阅、纸质出版的整理本）

文章/知识片段抽取

文章/知识片段抽取

图表抽取

三、常问问题

发表回复

流程二：手动新增条目流程