古籍蕴含着中华民族的灿烂文明和优秀的传统文化,保护好古籍对传承和弘扬中华优秀传统文化、增强文化自信有着重要意义。今年的政府工作报告中,明确提出要“加强文物古籍保护利用和非物质文化遗产保护传承”,体现了对提升古籍保护水平,拓展社会参与的广度和深度的重视。
然而从古籍保护现状来看,我国目前还面临数字化程度低、以文本形式进行数字化的古籍数量少、难以检索等问题。数据显示,我国现存古籍有20万种。据不完全统计,其中有数字化扫描影像的有8万种,而实现文本数字化的仅有3万至4万种。
为推动改变这一局面,3月17日,字节跳动向北大教育基金会提供捐赠,支持“北京大学-字节跳动数字人文开放实验室”,研发古籍数字化平台,利用智能技术加速中华古籍资源的数字化建设,向全社会提供公益化服务。该实验室将调动相关资源,力争在3年内完成1万种精选古籍的智能化整理工作。提供开放、体验良好的阅读服务和基本文本库,并借助知识图谱等技术帮助学者高效检索和利用古籍中的信息。同时,项目也将推出结合OCR文字识别、句读、实体识别和知识图谱等技术构建的一站式自动古籍智能化整理平台,并对社会大众免费开放,便于收藏机构、研究者、相关专业的师生和广大古籍爱好者自行完成古籍数字化工作,加快整个行业数字化古籍资料的效率。
中国社会科学院教授郑永晓多年来一直从事数字人文方面的实践和理论探索,参加了古典文献数字化早期的实践工作。他谈到,近20年来,我国在古籍文献数字化和古籍数据库建设方面的成就是巨大的。但目前古籍数据库的建设也面临发展的瓶颈。“虽然像《中华经典古籍库》《四部丛刊》等挂接联机字典、年代转换、批注等各种工具,很有实用价值,但从根本上说,这些数据库的主体内容属于非结构化数据,除全文检索外,并不能协助学者完成其他工作。因此,对古籍文献数据库进行升级换代势在必行。”
在郑永晓看来,未来的古籍文献数据库应结合数据挖掘技术、自然语言处理技术以及相关学者的深度参与,在古籍词频分析、版本分析比较、计算机辅助句读等方面有切实的进展。他说:“要利用人工智能、大数据等最新技术,力求完成人力所难以完成的宏观分析和微观比较等工作,协助学者进行多维度的统计、比较、分析,产生新的知识和思想。”
“我们希望与北大的跨学科团队在OCR文字识别、自然语言处理、知识图谱等技术领域展开全面合作,充分利用人工智能技术加快古籍数字化整理、研究与利用,让更多的研究者、爱好者以更高效、便利的方式获取古籍里蕴藏的丰富知识。”字节跳动有关负责人表示。(本报记者 于 帆)
2017年以来,山东省平度市实施了行走的书箱乡村阅读推广项目,按照让书箱走得更远,让乡村流溢书香的思路,通过政府、社会组织和专家团队三
古籍蕴含着中华民族的灿烂文明和优秀的传统文化,保护好古籍对传承和弘扬中华优秀传统文化、增强文化自信有着重要意义。今年的政府工作报告
今年全国两会期间,全国人大代表、广西艺术学院教授郑军里建议,进一步推动文化艺术惠民,把艺术精品送到田间地头、千村万寨,让村民足不出
2017年以来,山东省平度市实施了行走的书箱乡村阅读推广项目,按照让书箱走得更远,让乡村流溢书香的思路,通过政府、社会组织和专家团队三
皖南有个蔬菜村火了,游客和客商接踵而至,而让这个蔬菜村声名远扬的是村里各式各样形态生动的文创产品——艺术蔬菜。在安徽省黄山市徽州区
3月22日,记者从广州市文物考古研究院获悉,位于广州市海珠区的南石路28号地块获得重要考古新发现。经过一年多的考古调查勘探和发掘工作,
近日出版的散文集《黑夜之美》选录了作者庞井君多年来创作的散文26篇,其中《父亲的力量》《苏堤三月好读书》《黑夜之美》《驶向霞光的末班
安徽黄山、池州、宣城等7市、45个县在内的皖南国际文化旅游示范区建设有了新进展——《皖南国际文化旅游示范区十四五建设发展规划》(简称《
根据《第十三届中国艺术节总体方案》整体安排和工作要求,第十三届中国艺术节全国优秀美术作品展览、全国优秀书法篆刻作品展览、全国优秀摄
旗袍,中国和世界华人女性的传统服装,被誉为中国国粹和女性国服。虽然其定义和产生的时间至今还存有诸多争议,但它仍然是中国悠久服饰文化
7月21日,北京市政府发布《北京市电影局关于在疫情防控常态化条件下有序推进电影院恢复开放的通知》,宣布全市低风险地区影院,可于7月24日
武汉7·16渡江节组委会14日发布公告,由于长江武汉关水位超警戒水位,按照规定取消2020年第46届武汉7·16渡江节。受近期持续强降雨影响,
过去一段时间,国家级非遗项目灰塑传承人邵成村,多次在陈家祠等工作现场,向身边那些带着好奇目光的人们讲解灰塑的种种技术细节:草根灰、
7月13日,位于璧山区南门唐城夜市街区的璧山冷酒夜市开街。这是璧山区打造夜间经济消费载体、培育夜间经济活动品牌的举措之一。璧山市民一