在售产品

在售产品

目录
< 所有主题

1. 古籍拓片智慧整理一体机(文章级,Pro版)

一、基础配置

 

二、智慧整理流程

1. 古籍拓片智慧整理一体机(文章级,Pro版)

智慧整理流程有两种流程:第一种已经有了古籍拓片的元数据+元数据对应PDF的URL地址,选择流程一;第二种是您手头没有任何元数据,只有PDF文件,选择流程二。



流程一:批量导入元数据+PDF的URL 流程

(批量导入→自动OCR→三审三校形成OCR定本→三审三校形成标点整理本定本→文章/知识片段抽取→发布)

批量导入(花费时间:操作10秒)

步骤1:将已有数据按EXCEL模板准备

步骤2:将Excel转为UTF8编码的csv文件

步骤3:上传csv文件+字段映射

步骤4:导入,直至完毕

AI自动OCR(首次识别速度,1-3页/秒;此后直接拉取图文对照的OCR识别结果,用时仅需1-5秒)

首次访问自动OCR识别。首次打开任意一条记录,OCR引擎会直接根据URL地址拉取PDF进行自动识别。识别完毕,会将缩略图、文字、OCR图文对照自动更新到内容管理系统,全程无需任何人工介入。OCR识别速度,大约1-3页/秒。

一旦首次识别完成,任何人再次访问该条目,会自动拉取首次识别的全部结果,用时只需1-5秒。

三审三校形成OCR定本(人工逐列逐字比对,形成最接近原典用字、目录层级的OCR图文,用于长期保存与派生服务)

为避免针对不同使用目的反复校对OCR文本,最佳解决方案是采用”三审三校”流程建立”定本OCR”。该定本严格遵循原典文字特征(包括繁体字、俗体字、避讳字、生僻字等),形成权威的基准文本。此后所有衍生用途(如出版、校勘、辑佚等)均可由此定本派生,确保文本源头的准确性和一致性。包含如下步骤:

步骤1:文字校对。OCR模型对文字的识别率超过99%,只需要对极个别文字进行人工校对,使之按照原典。

步骤2:h标签人工标注与校对。原书一般有序、目录、卷次、篇、章、节、小节、题、小题、跋等层级信息,这些信息通过h1、h2、h3、……等h标签标注。

步骤3:pb标签标注和核校。书是由书-页码-行款组成的,为了方便书-页码-行款的双向可逆追溯,我们按页设计了page break分页编码规则,也就是pb标签。这个pb标签在自动OCR时会自动生成,但需要人工核校或插入,以使得页码和版面更准确。

只需上面3步,即可形成“OCR定本”。

AI辅助三审三校形成标点整理定本(形成适合在线阅读、在线查阅、纸质出版的整理本)

古籍拓片/民国图书/民国报纸/民国期刊的内容要能被广泛使用,需要形成符合当代用字习惯、阅读习惯、使用习惯的整理本。需要将上一步形成的“OCR定本”进行标点、异体字转繁体或简体、提要、分类等整理。包含如下步骤:

步骤1:一键<br>标签转<p>标签(用时仅1秒左右)。

步骤2:先确定所有文本转成繁体还是简体(根据目标用户来定),然后一键转成繁体或简体(用时仅1秒左右),准确率接近100%

步骤3:一键去除非字符号(用时仅1秒左右)。将“OCR定本”中的非字符号去掉。

步骤4:一键AI辅助标点(速度:1000/秒左右)。速度大约为每秒1000字,准确率接近100%。标点完毕后,人工核校AI标点是否准确。

步骤5:一键AI辅助提要(用时仅5秒左右,准确率接近100%)。利用AI为OCR的内容撰写1000字左右的提要,人工浏览核校即可。

步骤6:人工更新或核验分类。

文章/知识片段/图表抽取

文章/知识片段抽取

步骤1:切换到“标注模式”

步骤2:在文本框中依次:选中文字+标题按钮、选中文字+副标题按钮、选中文字+作者按钮、选中文字+时间按钮、选中文字+全文按钮、是否勾选“合并相同标题”,然后点击“书报刊内文章/知识抽取”按钮

1. 古籍拓片智慧整理一体机(文章级,Pro版)

步骤3:在弹出对话框中核对信息,添加“分类”“主题词”,点击“确定”

1. 古籍拓片智慧整理一体机(文章级,Pro版)

图表抽取

步骤1:切换到“标注模式”

步骤2:点击“书刊报内图表抽取”,在左边大图上拉框,会跳出一个对话框

步骤3:填写相关内容,点击“确定”

1. 古籍拓片智慧整理一体机(文章级,Pro版)

 



流程二: 手动新增条目流程

(手动新增条目+上传PDF全文自动OCR识别→三审三校形成OCR定本→三审三校形成标点整理本定本→文章/知识片段抽取→发布)

手动新增条目+上传PDF全文自动OCR识别

步骤1:在后台“新建”-“产品”,填入标题(标题名称可以为任意名称,后面可以在OCR后用OCR的文字提取文本进行半自动编目),发布即可。用时2秒。

步骤2:在前端上传PDF文件,进行自动OCR识别即可。(根据PDF文件页数的多少,一般1-3页/秒)

三审三校形成OCR定本(人工逐列逐字比对,形成最接近原典用字、目录层级的OCR图文,用于长期保存与派生服务)

为避免针对不同使用目的反复校对OCR文本,最佳解决方案是采用”三审三校”流程建立”定本OCR”。该定本严格遵循原典文字特征(包括繁体字、俗体字、避讳字、生僻字等),形成权威的基准文本。此后所有衍生用途(如出版、校勘、辑佚等)均可由此定本派生,确保文本源头的准确性和一致性。包含如下步骤:

步骤1:文字校对。OCR模型对文字的识别率超过99%,只需要对极个别文字进行人工校对,使之按照原典。

步骤2:h标签人工标注与校对。原书一般有序、目录、卷次、篇、章、节、小节、题、小题、跋等层级信息,这些信息通过h1、h2、h3、……等h标签标注。

步骤3:pb标签标注和核校。书是由书-页码-行款组成的,为了方便书-页码-行款的双向可逆追溯,我们按页设计了page break分页编码规则,也就是pb标签。这个pb标签在自动OCR时会自动生成,但需要人工核校或插入,以使得页码和版面更准确。

只需上面3步,即可形成“OCR定本”。

AI辅助三审三校形成标点整理定本(形成适合在线阅读、在线查阅、纸质出版的整理本)

古籍拓片/民国图书/民国报纸/民国期刊的内容要能被广泛使用,需要形成符合当代用字习惯、阅读习惯、使用习惯的整理本。需要将上一步形成的“OCR定本”进行标点、异体字转繁体或简体、提要、分类等整理。包含如下步骤:

步骤1:一键<br>标签转<p>标签(用时仅1秒左右)

步骤2:先确定所有文本转成繁体还是简体(根据目标用户来定),然后一键转成繁体或简体(用时仅1秒左右),准确率接近100%

步骤3:一键去除非字符号。将“OCR定本”中的非字符号去掉(用时仅1秒左右)。

步骤4:一键AI辅助标点。速度大约为每秒1000字,准确率接近100%。标点完毕后,人工核校AI标点是否准确。

步骤5:一键AI辅助提要。利用AI为OCR的内容撰写1000字左右的提要,准确率接近100%,人工浏览核校即可。

步骤6:人工更新或核验分类。

文章/知识片段抽取

文章/知识片段抽取

步骤1:切换到“标注模式”

步骤2:在文本框中依次:选中文字+标题按钮、选中文字+副标题按钮、选中文字+作者按钮、选中文字+时间按钮、选中文字+全文按钮、是否勾选“合并相同标题”,然后点击“书报刊内文章/知识抽取”按钮

1. 古籍拓片智慧整理一体机(文章级,Pro版)

步骤3:在弹出对话框中核对信息,添加“分类”“主题词”,点击“确定”

1. 古籍拓片智慧整理一体机(文章级,Pro版)

图表抽取

步骤1:切换到“标注模式”

步骤2:点击“书刊报内图表抽取”,在左边大图上拉框,会跳出一个对话框

步骤3:填写相关内容,点击“确定”

1. 古籍拓片智慧整理一体机(文章级,Pro版)

 

三、常问问题

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信