3. “智慧整理一体机”可以在哪些场景和应用案例?
一、智慧整理(文献级,Plus版)
智慧整理一体机(文献级,Plus版),擅长整理“整部书”“整期次的刊”“整版面的报”。可以实现:(1)“整部书”“整期次的刊”“整版面的报”的元数据半自动著录、管理,与元数据对应的PDF全文挂接;(2)对PDF进行OCR自动识别,人工三审三校形成定本OCR文字;(3)进行标点、摘要、分类等深度整理;(4)提供检索、查看定本OCR图文对照、查看整理本图文。常见的案例有:
案例1:某省级公共图书馆古籍阅览室
【需求描述】该公共图书馆参与了2023-2025年国家图书馆“全国智慧图书馆体系建设”项目的本馆古籍扫描与影页呈缴工作。呈缴完毕后,本馆的古籍影页没有一个统一的平台进行管理和OCR,只能放在硬盘里。面临的问题:(1)古籍虽然已经进行了数字化扫描,但没有统一管理,自然也没有得到充分利用,当读者提出古籍阅读请求时,仍然需要到书库提取纸质书,不利于古籍保护;(2)本馆馆藏的古籍数量庞大,不知道OCR要花多久,也不可能人工去核校文字准确性,要求OCR的准确率95%以上;(3)确保已扫描的这些古籍影页的安全性,希望离线断网本地部署,或本公共图书馆局域网内部署;(4)可以接受两种方式,方式一:本馆古籍阅览室配置3-5台一体机,读者先通过一体机查阅图文,只有查不到时才去书库提取;方式二:干脆形成了一个“本馆馆藏古籍数据库”,读者在本馆局域网内网直接查阅本馆的数字古籍进行阅读。
【实施】了解到需求后,我们提供“皕宋楼®古籍拓片智慧整理一体机(Plus版,文献级)”精准匹配核心需求:(1)统一管理古籍元数据+已扫描的PDF+OCR识别,方便检索古籍标题、古籍全文;(2)人工少干预或不干预,OCR在无干预情况下识别准确率达到95%以上;(3)支持离网断线本地部署、局域网内使用。(4)未来这个图书馆的其他文献(残本、拓片等)也可以陆陆续续入库管理起来。
【拓展】有类似需求的公共图书馆、高校图书馆、博物馆,都可以通过“皕宋楼®智慧整理一体机(Plus版,文献级)”达到目标。
案例2:出版社(有古籍、民国图书、报纸、期刊、书信等资料)
【需求描述】一家老牌古籍出版社,基本情况:(1)出版社存在有些年头了,有一些“家当”,历年汇集的古籍、手稿,有些有电子版,有些没有电子版但知道放在哪里,东西太多,没人完整地知道底细;(2)最近二十年,社里通过不同渠道,陆陆续续通过斥资付“版本费”的方式从国家图书馆、北京大学图书馆、上海图书馆等影印了一些资料,但一部分放在编辑电脑里,一部分放在柜子里,人频繁变动,有些资料不知道放在哪里;(3)古籍出版立新项目,出版社得配合项目负责人,帮它找寻各种版本,方便他校勘整理,当然,如果能提供OCR文字+对应的图片给他,则更好。(4)希望有个系统能帮忙把这些陈年资料一股脑全部管起来,进行OCR,不仅摸清家底,也方便编辑查找。
【实施】了解需求后,我们提供“皕宋楼®智慧整理一体机(Plus版,文献级)”+N个OCR模型的方案精准匹配核心需求。因为出版社要管理的文献比较杂,除了古籍,还有民国手稿、书信、油印、报纸、期刊,这些资料编辑排版前,需要进行OCR和图文对照。
【拓展】有类似需求的公共图书馆、高校图书馆、博物馆,都可以通过“皕宋楼®智慧整理一体机(Plus版,文献级)”+N个OCR模型的方案达到目标。
案例3:专题特色库/地方文献整理揭示——大学图书馆的“徽州文书”地方文献
案例4:专题特色库/地方文献整理揭示——地方志办公室的“地方文库”
案例5:首席专家的“大湾区”文献总平台课题
案例6:专题特色库——中医药资料集成
【需求描述】案例3/4/5/6,搜集了与地方密切相关一大批与某个地方或某个专题相关的文献(包括地契、合同、古籍、民国报刊文章、照片、方药、地方志),急需整理出来。这里面涉及几个重要需求:(1)地方文献由于类型繁多,分类体系也比较多(按时间、文献类型、子地域),希望整理的资料能按照新的分类体系进行揭示;(2)对文献的内容进行OCR识别,方便全文检索;(3)能实现文献-文献之间的某种关联或相关度推荐;(4)这些特色资料集中后,非常有特色,但是也不能藏着不让外人知晓,希望能通过互联网发布出来,但要有反爬机制,避免元数据和图片被爬走。
【实施】这个非常符合“皕宋楼®智慧整理一体机(Plus版,文献级)”+N个OCR模型的方案。“皕宋楼®智慧整理一体机(Plus版,文献级)”有:(1)非常灵活的“分面(facet)”分类系统,支持自定义分类、自动根据分类形成分面导航;(2)准确率极高的OCR模型,支持古籍、民国、手写行草等文字的识别;(3)反爬取、反拷贝下载机制。
二、智慧整理(文章或片段级)
智慧整理一体机(文章级,Pro版),擅长从“整部书”里抽片段内容、从“整期次的刊”里抽文章截图表、从“整版面的报”中抽版面文章。可以实现:(1)“整部书”片段内容、“整期次的刊”片段内容、“整版面的报”片段内容的元数据半自动著录、管理;(2)对抽取的内容进行人工三审三校形成定本OCR文字;(3)对定本的OCR文字进行章节编排、标点等深度整理;(4)提供检索、查看定本OCR图文对照、查看整理本图文。常见的案例有:
案例1:民国报纸期刊文章级全文数据库
案例2:红色革命档案文章级全文数据库
【需求描述】文章级文献抽取的需求:(1)要将民国报纸、民国期刊中的文章单独抽出来进行 文章级元数据编目+OCR全文检索+文章分类+文章标题检索 ;(2)抽出来的文章要求原始图片+OCR文字的图文对照,如果不展示图文对照,使用者会怀疑文章内容的准确性;(3)抽出来的文章,要显示原始图片在原报纸版面、原期刊期次中的位置,这样可以浏览同期次上下文。
【实施】这个非常符合“皕宋楼®智慧整理一体机(Pro版,文章级)”的功能。它支持:(1)通过对OCR结果抽取字段方式,进行文章编目,完全不需要人工敲字输入;(2)抽取出来的文章,可以看到原图+OCR文字的图文对照;(3)抽出来的文章,显示文章在原报纸版面、原期次的位置,方便浏览同期次上下文。
案例3:从古籍中抽出片段文字进行辑佚、辑录等整理
【需求描述】《永乐大典》《太平广记》等大型类书,当年是从N部古籍中抽取片段知识形成的,但是今天,出版社、高校学者希望从那些古籍已经佚失,需要根据散见的内容把这些内容辑录汇编在一起,形成辑佚本,努力还原古本原貌。
【实施】这个非常符合“皕宋楼®智慧整理一体机(Pro版,文章级)”的功能。它支持:(1)从OCR的文本里抽取内容进行汇总;(2)抽取出来的文章,可以看到原图+OCR文字的图文对照;(3)抽出来的文章,显示文章在原报纸版面、原期次的位置,方便浏览同期次上下文。
案例4:同主题知识的归类汇总为专题知识库(例如:方志物产数据库)
【需求描述】要把不同书中的人物基本信息、事迹等汇编在“人名”条目下,形成“历代人物数据库”;把不同书中的地名基本信息、地名相关内容等汇编在“地名”条目下,形成“历代地名数据库”;把不同书中的物产信息抽取出来,形成“方志物产数据库”;把不同书中的诗词歌赋抽取出来,形成“X朝代文库”“X地文库”……
【实施】这个非常符合“皕宋楼®智慧整理一体机(Pro版,文章级)”的功能。它支持:1)从OCR的文本里抽取片段内容,按词条“标题”进行汇总;(2)抽取出来的片段内容,可以看到原图+OCR文字的图文对照;(3)抽出来的片段内容,可显示在原书、报、刊版面或原期次的位置,方便浏览同期次上下文。
案例5:书报刊中印章、插图、插表、广告提取
【需求描述】截取书报刊中的印章,形成“印章库”;截取书报刊中的插图、表,形成“插图库”“插表库”;截取书报刊中的广告,形成“广告库”……
【实施】【实施】这个非常符合“皕宋楼®智慧整理一体机(Pro版,文章级)”的功能。它支持:(1)从书报刊里抽取图、表,按词条“标题”进行汇总;(2)抽取出来的片段内容,可以看到在原图中的位置。
(更新时间:2025年6月1日)