中国文学网(学习居) 荟萃中外经典文学 传播精神财富
让你熏陶文学的气息
中国是世界四大文明古国之一,中国浩如烟海的文献典籍记录了历史。然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外。
阿里巴巴达摩院、四川大学、美国加州大学伯克利分校近日公布,他们花费两年多的时间,教会了AI识别中国古籍,将它们以数字化的形式接回故土,置于网络公益平台,向所有人开放。
这个项目的名字叫“汉典重光”,意为让失落的珍贵古籍重放光芒。“汉典重光”以97.5%的准确率,识别了20万页古籍,覆盖3万多字的古籍字典。
现代科技照亮中国古籍“回家”之路
中国古籍拥有非常庞大且复杂的知识体系,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。所涉及的范围也是极其广泛,有应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等的经验,有战争、瘟疫、地震、洪涝灾害、病虫害等方面的经验总结,还有医疗、中药、养生、家具、服饰、饮食文化等生活经验。
加州大学伯克利分校的东亚图书馆是全美三大东亚图书馆之一,90万册藏书里四成都是中文书,还有不少甲骨文和拓片。第一次到这儿的中国学者总感觉在穿越历史的“虫洞”,这些古籍不能运回中国,那就用数字化手段让古籍的内容“回家”。
2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院副院长王果与中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,最后获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。
据王果介绍,“汉典重光”的分工非常明确——采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统。东亚图书馆完成第一个环节后,四川大学将和达摩院共同完成另外两个步骤。其中,四川大学将提供一切非计算层面的专业支持,并与达摩院的机器视觉实验室合作,共同开发古籍AI技术。
首批数字化的古籍共20万页,包含40余种珍贵宋元善本。刚开始大家对这个项目很有信心,但实际一上手才知道难度有多大。
首先是中国古籍的载体很多,纸、布、竹子、木头、甲骨、石碑……几乎所有能用的载体都被古人留了字,不同载体上面的字识别起来差别非常大。年代久远的纸张大多残缺不全,上面还布满斑点,而且排列非常复杂。古人喜欢从上到下,从右到左,还非常喜欢在上面做批注。
字迹的精美也成了负担。隶书、楷书、草书、行书都漂亮,但也真难认。大部分字还是手写的,不但两个人写的同一个字不一样,同一个人写的同一个字也差别很大,很多字还有不同写法。
团队原有的OCR(图像文字识别)的识别准确率只有40%,这显然是不够的,较早涉足古籍识别的Google Books(谷歌图书)针对的都是英文古籍,对中文也不适用。
大量创造性和创新性的辛勤劳动
没有前车可鉴,只能自己来了。“这就像教小朋友识字,确实难,但也有简单的部分,我们就由易到难慢慢做。”王果说。
前所未有的开拓性成果,包含着中国学者大量创造性和创新性的辛勤劳动。
达摩院的古籍识别算法,用AI替代人工,大幅压缩了专家标注工作量。在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍。这种古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。
非计算机层面的工作也非常重要,四川大学专门组织了30多个历史系学生来做标注,这很耗神,眼力、脑力缺一不可,但这个过程没法省略,就像学生要学习,算法也要迭代,“只有数据够多够好,机器才能搞定”。
这是一件非常难但非常有意义的事情。古籍识别的挑战巨大,但大家还是想通过技术让古籍活起来,用科技守护文明。
据了解,达摩院、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆将继续投入人力、物力,扩大古籍数字化回归的数量,让所有蒙尘的古籍重焕新生。
科技守护文明:中国古籍“回家”之路
相关标签: 中国文学网(学习居)、 科技守护文明:中国古籍“回家”之路、 古籍、 中国古籍、 海外流失文物、 汉典重光、
本文地址:http://www.2345.hk/article/3521.html
中国文学网(学习居),中国247城,谁的罚没收入高,247个地级以上城市,三分之二罚没收入占比集中于3%-8%,29个超过10%文|陈汐刘建中地方政府的收入主要有两种:一种是公共财政收入;另一种是基金收入。公共财政收入,又称一般
中国文学网(学习居),38岁“花花公子”,接掌千亿帝国,来源:环球人物花花公子变金融帝国接班人,他不简单。作者:许晔在距离93岁生日还有2个月时,乔治索罗斯终于交班了。近日,这个金融巨鳄宣布,将把250亿美元(约合人民币1
中国文学网(学习居),让文化遗产活起来提升保护传承水平——多彩活动点亮2023年文化和自然遗产日,央广网北京6月11日消息(记者丁飞孙鲁晋侯艳)据中央广播电视总台中国之声《新闻和报纸摘要》报道,10日是文化和自然遗产日,全国各地纷纷举办形式多样、内容丰富的线上线下活
中国文学网(学习居),数字化助力中华传统文化“活”起来,6月8日,观众在文博会数字中国主题展区观展。第十九届中国(深圳)国际文化产业博览交易会聚焦数字化,大力实施国家文化数字化战略,加快推进展会数字化建设,首次设立了数字
中国文学网(学习居),山东济宁:老城旧巷变身文创旅游“打卡地”,5月10日,两名年轻人在山东济宁环西北里文创街区体验手工项目。近年来,山东济宁立足老城实际,围绕文旅融合、文化两创,积极推动传统文化与新需求、新理念、新技术融合,探寻
中国文学网(学习居),清明假期品敦煌艺术,4月5日,观众在敦煌研究院兰州分院敦煌艺术馆参观。当日是清明节假期,众多市民和游客来到位于兰州黄河岸边的敦煌研究院兰州分院敦煌艺术馆参观打卡,欣赏觉色敦煌莫高精神敦
中国文学网(学习居),一季度全国结婚登记同比增加4万对,离婚多了12万对,澎湃新闻记者钟煜豪据民政部官网近日公布的2023年一季度民政统计数据,今年一季度全国结婚登记量为214.7万对,离婚登记量为64.1万对。与2022年一季度相比,两项数据同比分别增加
中国文学网(学习居),2024QS世界大学排名发布北大全球排名17位,2023年6月28日,国际高等教育研究机构QSQuacquarelliSymonds发布第20版世界大学排名,首次将就业能力和可持续发展指标纳入排名体系,成为全球唯一一个同时包含这两项指标的排名。
中国文学网(学习居),“蓉宝”衍纸画热销残疾人工匠做出成都大运会特许商品,新华社成都7月19日电大家给纸条打瓦楞的时候手注意不要上下抖动,卷出来的卷相同颜色要放在同一个地方近日,成都市温江区衍匠文创工坊里,一场社区研学体验正在进行,在工坊首
亿流链,亿流友链交易平台,提供友情链接买卖交易,买卖有保证,网站友链出租,网站添加外链,外链交易平台。
爱2345网址大全,好2345网址导航是最好的网址导航大全,爱2345网址大全,提供爱2345小游戏,团购网站,影视大全,小说网址,实用查询,纯净的网址导航网站,绿色、快捷、安全!
秒收录网址导航,创新网址导航网站免费秒收录,自动收录分类目录导航,新网站秒收录技术,云蜘蛛搜索留痕工具,自助友情链接交换
易米收录网,致力于为站长提供一站式的网站快速收录服务,我们专注于高效、自动化的收录流程,确保您的网站能够在百度、搜狗、360等主流搜索引擎中迅速获得索引。同时,我们提供友情链接交换平台,帮助站长提升网站权重,优化SEO效果,加入易米收录网,让您的网站曝光更快,流量更高!
全球领先的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。
网站收录网,主要提供网站快速收录,快速上排名,站点权重提升,网站收录提交,网站收录工具,同时提供最全的优秀名站。
2345链,致力打造国内人气最旺的自助友情链接平台
易流链收录网是一个流量互增、增加网站外链、提升网站权重和网站流量的自助链接平台,免费收录国内各行业优秀的正规网站,网站免费提交,系统自动审核,致力打造国内人气最旺的自助友情链接平台。
网站收录网,主要提供网站快速收录,快速上排名,站点权重提升,网站收录提交,网站收录工具,同时提供最全的优秀名站。