哈佛燕京图书馆的珍贵古籍近日通过“识典古籍”平台向公众开放,这一举措不仅实现了中西文献资源的深度融合,更让这些沉寂已久的文化瑰宝以数字化形式重回大众视野。平台上线了宋刻《十诵律》、元刻《隋书》、明抄《永乐大典》等稀世典籍的高清影像,同时呈现了齐思和、顾颉刚等学者留下的校勘痕迹与研究路径,为学术研究提供了珍贵的一手资料。
该图书馆以藏量丰富、孤本众多闻名,现藏古籍逾15万册,涵盖宋元明清各代刻本及稿抄本,其中善本数量达4000部,学术价值极高。地方志与丛书是馆藏两大特色:3000余部方志约占中国大陆现存总量的39%,1400余部丛书覆盖了半部《中国丛书综录》。馆内还珍藏有《永乐大典》两卷、毛氏汲古阁抄本及大量明清禁书,均为难得一见的文献珍品。
这场跨越百年的学术对话始于上世纪二十年代的“文献双生”制度。1928年,燕京大学与哈佛燕京图书馆建立特殊藏书机制:凡由学社经费购置的中文文献均一式两份,分别留存燕京与哈佛,双方在藏书建设上形成鲜明分工——燕京侧重西文参考书与西方汉学著作,哈佛则专注宋元善本与地方志收藏。这一制度因战火中断数十年,直到近年通过数字化方式得以延续。
2024年,全国高等院校古籍整理研究工作委员会、字节跳动公益与北大数字人文中心联合发起“我用AI校古籍”行动,将哈佛燕京图书馆7000部珍贵古籍转化为可检索的数字资源。该项目依托AI技术与众包模式,发动三万四千名高校师生与社会志愿者参与OCR识别与校勘,累计整理古籍一万九千余部,修订文本超十三亿字。这种“智能+众包”的模式大幅降低了古籍整理门槛,使传统需数月完成的工作缩短至数周。
平台技术负责人介绍,当前文字识别准确率已超96%,自动标点准确率达94%,命名实体识别接近98%。AI会标记疑难字供志愿者核对,形成“机器初校-大众复核-专家审定”的三级流程。北京大学数字人文中心副主任杨浩比喻道:“传统手工作坊变成了流水线工厂,学术资源整理效率呈指数级提升。”
这场数字化工程背后,是洪业先生上世纪三十年代开创的学术传统。1928年,洪业在北平创立“引得编纂处”,参照哈佛图书馆工作流程制定严苛编纂制度,强调“编纂非抄录,而是整理学的训练”。他创立的“中国字庋撷法”将西方信息科学理念与中国古典文献学结合,主持编纂的《引得丛刊》涵盖经史子集64种81册,成为20世纪上半叶最重要的学术工具书系列。
洪业提出的“索引是古籍之钥”理念,在当代数字平台得到完美诠释。现年58岁的机场调度员九衛白天从事安全调度工作,夜晚则化身“校书官”,在古籍世界中寻找错漏。他发现某些古籍错误经代代传抄已成定式,能纠正这些积弊让他倍感成就。像九衛这样的普通参与者,在完成多项任务后可加入“进阶组”与专家探讨学术问题,真正实现了“学术平民化”。
平台设计的激励机制进一步激发公众参与热情:志愿者可根据贡献度领取不同等级奖励,最高荣誉“金典典”奖杯需投入1000小时以上校勘工作,目前已有50人达成此成就。每位参与者的名字都会永久留存于平台,这种将学术贡献可视化的设计,使严谨的古籍整理工作转化为可参与的文化活动。
从洪业时代十余人伏案抄录,到如今数万志愿者与AI协同工作,学术传承的形式虽变,内核始终如一。那些泛黄的卡片化作数据库里的索引,残缺的典籍在众人手中重焕生机。当华东师范大学博士生刘帅用一个月整理出五千万字古籍时,他感受到的不仅是效率飞跃,更是学术血脉的延续——这种延续不依赖仪式与喧哗,而是通过系统可证与众人协作,在人与古籍的对话中静静流淌。








