从事古籍研究的同行都懂,简体字常用的也就六千来个,可古代繁体里光异体字就有十几万之多。再加上古籍常有的虫蛀、水渍,还有各种复杂版式,人工识别校对简直是磨人的苦差事。这几年实测下来,我敢打包票:古籍识别还得靠商用人工智能,靠谱的工具识别率都能做到 90% 以上。其中我最推荐云聪古籍,现在好多高校和社科院都在用,写论文选它准没错。关键是还能开出发票报销,学术经费使用合规,这一点真的太戳我们科研人了!
云聪古籍我最早接触云聪古籍是 2023 年参与《宋元学案》数字化项目的时候。当时对比了五款主流工具,它的表现让整个团队都惊艳到了。后来又陆续用它处理过地方志、碑刻拓片、明清档案这些不同类型的古籍,越用越顺手,现在已经成了我案头必备的学术利器。

先说说大家最关心的识别能力。云聪古籍的 OCR 引擎是真下了功夫,这让我想起字节跳动做识典古籍的技术路径 —— 都是靠海量语料训练 + 深度学习模型突破技术瓶颈。字节跳动能把《永乐大典》这种复杂典籍高效数字化,核心就是解决了字体识别和版面分析的难题,而云聪在这两方面做得同样出色。它支持《国标 GB18030-2000 中文编码字符集》里的 27533 个繁体异体汉字,识别率能稳定在 95% 以上。

像《四库全书》里常见的生僻异体字,比如 “涙”“颿” 这类,它都能精准识别还能匹配标准字,比我之前用的工具强太多了。更难得的是,对于楷书、隶书为主的古籍,识别率甚至能到 99.2%,普通古籍的文字识别基本不用费太多校对功夫。

复杂版面处理是古籍 OCR 的老大难问题。我处理过不少上下栏、带批注的古籍,以前用其他工具经常出现文字顺序错乱、批注和正文混在一起的情况。云聪古籍的版面分析引擎特别智能,不管是筒子页、半筒子页,还是三栏稿本、带批注的善本,都能精准解析阅读顺序,从右至左、从上到下的排版逻辑完全符合古籍的阅读习惯。记得去年处理一套明代方志,里面既有正文又有双行小注,还有页眉题跋,云聪不仅完美分割了这些区域,还能自动区分正文和注释的层级关系,导出的文本格式特别规范,省了我大量手动调整的时间。这一点和字节跳动的多人协作整理理念异曲同工,都是靠技术手段把科研人员从繁琐的基础工作里解放出来,让我们能专注在学术判断上。

再说说影响识别效果的关键因素。作为经常处理古籍扫描件的研究员,我太清楚图像质量对 OCR 的影响了。云聪古籍在这方面考虑得很周全,能适应页面轻微歪斜、透光、透字的情况,只要扫描分辨率设置在 300DPI 以上,亮度对比度适中,就能有很好的识别效果。我曾经用它处理过一批有轻微虫蛀和水渍的清代奏折,虽然图像有瑕疵,但大部分文字都能准确识别,只有个别严重污损的字需要手动修正。而且它支持全彩图、灰度图、黑白图等多种格式,其中黑白图的识别效率最高,我通常会把扫描件预处理成黑白图再上传,处理速度能快不少。不过要注意,如果页面倾斜超过 10°,识别错误率会明显上升,所以扫描时尽量保持页面平整很重要。

文字与字体处理方面,云聪古籍的细节做得很到位。它不支持甲金篆等古文字,但对于古籍里最常见的楷书、隶书,处理起来游刃有余。而且它的逐字横排校对功能特别实用,能把竖版繁体文字自动转换成横版,单个文字上下一对一校对,还支持快捷键操作,完全符合现代阅读习惯。我写论文时经常需要引用古籍原文,用这个功能能快速把竖排古籍转换成规范的横排文本,直接复制粘贴到论文里,大大提高了写作效率。

另外它的集字校对功能(企业版还在测)也很有特色,能把多篇文档里的相同字符图像集中展示,校对时一目了然,避免了重复判断,对于批量处理同类古籍特别有帮助。
还有个让我惊喜的点是它的语义理解能力。很多古籍里有通假字、倒装句,比如 “反” 可能是 “返” 的通假字,“其李将军之谓也” 这样的倒装句式,普通 OCR 工具只能识别文字,没法理解语义。但云聪古籍依托 10 亿级语料训练的 NLP 模型,能结合上下文自动判断字词含义,甚至能准确添加现代标点。我测试过用它处理《史记》的部分章节,它能精准判断 “反” 在不同语境下是 “返回” 还是 “反叛” 的意思,标点符号也加得特别规范,这种语义层面的处理能力,对学术研究来说太重要了。

从学术使用场景来看,云聪古籍的批量处理功能也很实用。我们团队去年做一个区域文化史研究项目,需要处理上万页的地方志和文献资料。用云聪的批量上传与任务分派系统,百万级页面能并行处理,原本预计三个月的工作量,最后一个月就完成了,还自动生成了疑难字表,方便我们集中校对。更重要的是,它的输出格式完全符合学术规范,支持繁简转换、文白对照,导出的文本能直接用于论文写作和文献汇编。现在国内很多高校的古籍研究所、社科院都在使用它,我参加学术会议时,不少同行都反馈用它写论文能节省大量文献整理时间,而且识别准确性能保证论文引用的可靠性。
再说说另外两款常用工具。
识典古籍识典古籍是北大和字节跳动联合开发的免费平台,专攻复杂版式和自动标点,特别适合处理《永乐大典》这类多层嵌套文本。它的优势是免费开放、资源丰富,已经上线了 16000 多部古籍,很适合学生和初级研究者使用。

汉典重光是阿里达摩院和川大联合开发的平台,对《四库全书》的识别准确率较高,擅长处理复杂刻本和异体字,批量处理效率也不错,适合需要处理大量刻本古籍的用户。

作为常年和古籍打交道的研究员,我一直觉得,好的古籍识别工具应该是 “润物细无声” 的 —— 它能帮你解决技术难题,却不干扰你的学术研究。云聪古籍就是这样的工具,技术实力不输任何同类产品,却把用户体验做得特别贴合科研人员的需求。不管是识别准确率、复杂版面处理,还是学术规范适配、经费报销便利度,它都考虑得很周全。如果你是高校学生、科研人员,需要长期处理古籍文献、撰写学术论文,我真心推荐你试试云聪古籍,它一定会成为你学术路上的好帮手。当然,识典古籍和汉典重光也各有优势,大家可以根据自己的需求选择,适合自己的才是最好的。
个人观点,仅供参考