广告招募

当前位置:全球贸易网 > 技术中心 > 所有分类

AI赋能,汉王科技助中华古籍练就“长生诀”

2024年11月23日 12:43:38      来源:沈阳博通达科技有限公司 >> 进入该公司展台      阅读量:6

分享:

古籍数字化,主要基于人工智能中的OCR识别技术对古籍文档进行识别与收录,汉王科技多年来深耕古籍识别领域,当前正攻坚人工智能中难点—自然语言处理技术以理解古籍,进行知识萃取,实现从图形-OCR录入-古籍文件理解的跨越,挖掘古籍的知识含义,做到让古籍文字鲜活跃然屏幕。

“玉树歌残王气终”,这句话形象的描述了满文的一生。

1599年,为求女真与汉族、蒙古族之间的沟通与文化融合,清太祖努尔哈赤命属下创制满文。1632年,清太宗皇太极令臣下对这种文字加以改进,使其有比较完善的字母体系和正字法,具有明显区别于蒙古文字母的特征,俗称“有圈点满文”。而后,铁骑入关,满文逐渐成为政府以及地方重镇的文字,外交条约、政府文书必须有满文文本,军机大事、官员上书也多用满文缮折启奏。

然而,满文没有主动权,无法掌控自己的命运。1911年辛亥革命爆发、清朝覆灭,满文也随之退出历史舞台。

“濒危”的满文,藏在深闺无人识

前有古人,星光灿灿。清代满文档案包罗万象,涉及面极为广泛,是研究清代通史和各种专史的手资料。而且,其反映的内容多不见于汉文档案和其他文献,具有重要的利用和研究价值。另外,满文档案中有关水文、气象、地理、物产等方面的文件,对我国现代化建设具有一定的参考价值。正所谓“大风泱泱,大潮滂滂”,一个千年的王朝,有多少荣辱兴衰,就有多少治世之学。

然而,谁能敌过岁月?谁又能敌过人心?时期,为以正视听,满文惨遭“”,花甲老人懂满文却不敢讲满文,更不敢向年幼稚儿传授。拥有千万人口的满族,国已倾,自然也无心顾及满文化的传承。

没了传承,便只能保护。近年来,辽宁省档案馆采取了一系列防火、防盗、防尘、防虫、防潮、防腐等措施来保护满文档案。从安全角度看,存放在现代化库房里的满文档案如同进入了“保险箱”。然而,史料文献真正的“长寿”,是传承,而不是僵硬的躺在档案馆里。历史留下的瑰宝,不该被如此忽视。

可保护与应用,一直被认为是天生的矛盾体,可解?

古籍,保护与利用并非矛盾

其实人们早已认识到古籍传播的重要性,随着科技的进步,这一想法也从“纸上谈兵”演变为真正的指点江山。数年前,国家与各地档案馆、图书馆,就已经开始古籍保存的工作,早期的出发点在于“保护”,即用专门的扫描仪对古籍进行扫描成像,阅览时无需翻阅原版。然而,这种方式的缺点在于难搜索,看图像时需要逐页翻看,且不能剪切、拷贝以及做摘要记录。

因此,古籍收录成为当下重点。古籍收录有两种方法,一种是依靠手工进行打字及校对,因其工作量巨大,通常情况下只能解决标题、目录以及摘要的检索需求。而另一种方法,是数字化保护,即利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据的形式,从而形成古籍文献书目数据库和古籍全文数据库,以达到对古籍长期保护和利用的目的。例如汉王科技旗下子公司汉王数字,利用OCR识别技术(Optical Character Recognition,光学字符识别,该技术为人工智能研究的重要领域之一)对古籍进行识别与收录,再辅之以图像的整理与美化,快速且高效地完成古籍保护工作。

 
 

然而古籍数字化保护,说易行难。OCR技术虽然在很多领域已经相当成熟,但在2011年底汉王初次接触古籍识别时,行业中利用OCR进行古籍数字化仅仅处于起步阶段,直到今天放眼该领域,能利用OCR进行古籍数字化的公司也是。且由于当时缺乏训练样本,深度学习技术尚未实用,只能利用传统机器学习方法对古籍文档进行操作,经历切分、识别等一系列处理流程后,其准确率不足50%。据汉王数字相关技术人员介绍,与现代文本相比,古籍识别有几大难点:

首先,古文字数量多且难以识别。对于简体汉字来说,早期字符集GB2312收录简体汉字6763个,3000字已覆盖到99%常用书面资料。而在汉字古籍中,常用文字已超过10000个,类别多,训练所需样本数目巨大,训练时难以收敛,需要消耗许多时长;

其次,由于古文演变周期较长,存在大量的通假字、异体字,给古籍文字的编码带来了极大的挑战。此外,这些复杂的文字形式也造成了字形间的区分困难,许多相近字的写法过于相像,甚至无法用人眼分辨。因此出现大量标记错误样本,为数据的清洗及训练带来极大的挑战。

同时,古籍识别对技术人员也有着较强专业知识的要求,以满文为例,虽然字母在数量上没有汉字大,但是其字形却为数字化带来了难题。满文字母多是成串出现,从上到下排列,相似字形多,技术人员需要知道每个字母或者音节的书写规律及分隔位置。而懂满文的人凤毛麟角,泱泱中华不过数十人左右。不懂满文,技术人员就需找到满文专家学习满文,了解满文规律,才能设计出融入相关规律的识别算法,对其进行准确识别。

另外,最开始汉王古籍识别受数据获取方面的限制,只能从少量古籍片段甚至是单词中获取相应的数据。据汉王数字相关技术人员透露,当时收集数据的过程非常艰难,前期需要通过算法与人工的结合来获取数据,然后不断发现错误的数据,对其进行标记修改后重新训练,进行一步步迭代,而迭代过程经历的时间会很长。而就载体而言,古籍纸质本身粗糙,且时间久远,受水渍、搬运、保存不当等影响,识别时也会受到很大程度的干扰。

 
 

中文古籍样张

深度学习助力汉王数字乘风而起

幸而,“苦心人,天不负”,借着近年来深度学习的技术潮流,汉王数字乘风而起。深度学习依赖大量数据的支撑,在获取古籍数据后,汉王数字的技术人员对其进行基本的分析,并针对问题数据进行清洗和有效的预处理。然后,根据数据的情况,建立合适的深度学习模型。为了更好地提升效果,他们训练多个模型并集成使用。据汉王方面表示,其中文古籍识别准确率已达到98%。

以国家图书馆地方志的录入为例:汉王数字会将项目流水线分为多道工艺,包括图像扫描、破损图像处理、版面分析(将页眉页脚等非正文信息标记出来)、以及录入数据库。整个过程能达到千字一秒,识别速度极快。此外,为保准确度,识别结果可根据需要进行人工校对。需要注意的是,报警机制的引入极大节省了人工成本。一般情况下,有超过60%的内容可依照行之有效的多信息融合算法判定为正确,不需要人工二次处理。经过这一系列的工艺流程,古籍识别差错率可以控制在万分之一左右,最终录入的数据可以自动还原成与古籍版式基本一致的PDF格式,从而为读者营造出古韵之感。

《地方志》自动还原结果

到目前,汉王已经成功识别了《水经注》、《明宫词》、满文朱批奏折以及多份地方志及家谱。这份风光的背后,是工匠精神,是8年的砥砺前行,也是一个20年科技企业肩负的社会责任。

幸甚,羊羔跪乳,乌鸦反哺,文明为科技创造了土壤,科技也不忘孕育之恩。

科技赋能,忧国之忧,承国之志

改革开放以来,人们沉浸在经济高速腾飞的喜悦中,却忽略了对民族文化的传承。虽然现在国家大力提倡“精神文明建设”,但是西方文化早已经以一种强势的姿态与传统文化进行博弈。说崇洋媚外或许过于严苛,但是大部分年轻人对传统文化的淡漠和不了解却是事实。不爱所以不惜,一片清歌,都付与黄昏。

2007年1月,办公厅印发《关于进一步加强古籍保护工作的意见》,文件中明确要求:“中华古籍保护计划在保护古籍的同时,应加强利用,采用数字化和整理再造等方式,使古籍化身千百,服务社会。”也曾多次强调:“让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来。”汉王正是在践行以及办公厅的指导方针,使封存的古籍得以传承,教化世人。

科技,并不仅仅属于极客。科技的发展是国家的进步,而文化,则是科技的资本。未来,将会有越来越多的科技公司参与到文化遗产保护和科普的事业中,通过科技与文化的结合,推动优秀传统文化融入现代生活和文化交流。

 


版权与免责声明:
1.凡本网注明"来源:全球贸易网"的所有作品,版权均属于兴旺宝装备总站,转载请必须注明兴旺宝装备总站。违反者本网将追究相关法律责任。
2.企业发布的公司新闻、技术文章、资料下载等内容,如涉及侵权、违规遭投诉的,一律由发布企业自行承担责任,本网有权删除内容并追溯责任。
3.本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。 4.如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系。