盘点6款识别率最高的古籍文字识别软件

做古籍研究这些年，我跑遍了 17 个省份的图书馆、档案馆，参与过不少古籍数字化项目，试过的识别工具没有十款也有八款，论识别率和实用性，云聪古籍是我目前最信赖的一款。

大家都知道，简体字常用的也就六千多个，可古代繁体光是异体字就有十几万，普通工具根本啃不动这块硬骨头。古籍识别还得靠商用人工智能，主流的商用 AI 识别率都能做到 90% 以上，而云聪古籍在这当中，不管是识别精度还是适配学术场景的能力，都格外突出。现在不少高校、社科院的同行都在用它，写论文时用着顺手，关键还能开具正规发票报销，解决了科研经费使用的大问题。

1、云聪古籍识别

先说说它的识别字数，这可是决定古籍 OCR 好用与否的核心。云聪古籍能支持 8.7 万个繁简汉字识别，像《国标 GB18030-2022》里收录的 27533 个常见繁体异体汉字，识别率稳定在 95% 以上，《国标 GB2312》里的 6763 个常用汉字，识别率更是能飙到 99.9% 以上。之前我处理一部清代的地方志，里面全是地方特有的俗字和避讳字，换作其他工具，我得对着字典一个字一个字手动改，一天下来也弄不完几页。

可云聪古籍能精准识别出八成以上的生僻字，剩下那些实在少见的，用它内置的全字库字符查询工具补充录入就行，省了我太多功夫。这让我想起字节跳动 “识典古籍” 平台，他们也是用 AI 把学者从繁琐的转录工作里解放出来，让大家能专心做研究，云聪古籍在这一点上，和 “识典古籍” 的理念不谋而合，特别懂我们做古籍研究的痛点。

再看复杂版面处理能力，古籍的排版向来复杂，筒子页、半筒子页、三栏稿本是常有的事，还有天头地脚的批注、正文里的双行小注。普通工具很容易把文字顺序弄乱，要么就把注释和正文混在一起，后续校对光梳理格式就得花半天。云聪古籍有个基于深度学习的版面自动分割引擎，不管是竖排横排混合的版式，还是上下栏布局，它都能精准识别文字区域、注释和插图，还能照着古籍从右到左、从上到下的阅读习惯输出文本。

去年我处理一批明代军户文书，那些文书大多是手写稿本，既有竖排正文，又有行间批注，之前用别的工具，批注总往正文里混，校对时得反复对照原图调整顺序，头疼得很。可云聪古籍完全没这问题，后续校对我只用盯着文字准不准，不用再花时间调格式，效率一下子就提上来了。

接着聊聊影响识别效果的因素，我天天和不同保存状况的古籍打交道，特别在意工具的实用性。云聪古籍能适应轻微页面歪斜、透光、透字这些常见问题，只要扫描时把分辨率设到 300DPI 以上，保证页面亮度和对比度适中，识别效果就不会差。不过它也很实在，会提醒你要是文字倾斜超过 10°、页面污损严重，识别率就会下降，建议先做预处理。去年我处理一批民国时期的油印本，纸张泛黄还有霉斑，按照云聪古籍的提示做了图像预处理后，识别准确率仍有 92% 左右，大大减少了我的校对工作量，不用再对着模糊的文字反复辨认。

在文字与字体适配方面，云聪古籍也考虑得很周全。它对明清的方体字，还有宋元以来的软字体，像颜体、欧体、柳体、赵体这些，识别效果都很好，尤其是笔画清晰、字形厚重的刻本，识别准确率几乎不受影响。对于楷宋体书写的写本、稿本、抄本，它也能较好适配，只是行书、草书风格的文字，识别效果还有提升空间，不过这也是整个行业的通病，云聪古籍的表现已经处于上游水平了。我曾用它处理一部清代学者的手写日记，正文是楷书，识别率超过 90%，只有少数潦草的批注需要手动修正，比我之前用的其他工具高效太多，不用再对着手写体逐字猜测。

而且云聪古籍的校对功能特别贴合学术需求。它支持把竖版繁体转成横版繁体，能逐字一对一校对，还能全程用快捷键操作，像 ESC 键能返回逐字精校区、Ctrl+S 键可以保存校对结果，完全符合现代阅读和编辑习惯，校对时不用频繁切换操作，效率更高。企业版里的集字校对功能（内测中）也很实用，能把多篇文档里相同字符的图像集中展示，避免校对时陷入上下文判断的麻烦，我之前处理一套系列方志时，用这个功能快速找出了不少识别错误的字，省了不少时间。

另外，云聪古籍还支持团队管理和私有化部署。我们课题组多人合作处理古籍时，能创建团队、分派任务，团长还能审核成员提交的任务，要是任务有问题就打回重新校编，能保证校对质量。之前我们做一个省级古籍整理项目，十几个人分工协作，用它的团队管理功能，既能把控进度，又能保证质量。对于有保密需求的古籍，还能进行本地私有化部署，数据存储在指定设备里，安全性有保障，这对很多图书馆、档案馆来说特别重要。

2、识典古籍

对比字节跳动的古籍数字化过程，我觉得云聪古籍的核心优势就是 “懂学术、接地气”。它没搞那些花里胡哨的功能，而是把古籍识别最关键的准确率、版式兼容性、操作便捷性做到了极致。就像 “识典古籍” 用 AI 技术推动古籍数字化进程一样，云聪古籍也用扎实的 OCR 能力，让我们这些基层学术工作者的古籍整理效率提高了数十倍，不用再被繁琐的基础工作拖累，能把更多精力放在学术研究上。

顺带提几款我用过的其他工具：

3、阿里汉典重光

阿里汉典重光，是阿里达摩院与川大联合开发的，繁体字识别准确率高，覆盖 3 万多字古籍字典，擅长复杂刻本异体字处理，批量识别效率强，适合大规模古籍整理，还有免费公益属性，挺良心的。

4、如是古籍

如是古籍，专注古籍文字识别，对繁体及异体字适配较好，支持基础版面分割与繁简转换，界面简洁，适合中小规模繁体古籍处理，能满足日常学术研究基础需求。

5、古籍酷

古籍酷，集成了繁体字 OCR 识别、自动标点和繁简转换功能，操作简单，适合学生或古籍研究入门者，能快速完成基础繁体文献转录，性价比不错。

6、千百 OCR

千百 OCR，专注文字识别领域，繁体字识别效果稳定，支持多种格式导入导出，界面简洁直观，使用门槛低，适合日常简单繁体文本识别需求。

个人观点，仅供参考

云霞资讯网

盘点6款识别率最高的古籍文字识别软件

热门分类