古彝文识别:文化遗产的数字化之旅

本文涉及的产品
文档理解,结构化解析 100页
OCR统一识别,每月200次
小语种识别,小语种识别 200次/月
简介: 在文化遗产保护领域,人工智能正在发挥着越来越重要的作用。古彝文,作为中国西南地区古老而独特的文字,承载着深厚的历史文化底蕴。然而,由于古彝文的书写复杂,传统识别方法往往费时费力,因此古彝文的保护和传承面临着重大的挑战。随着科技的不断发展,人工智能技术的运用为古彝文保护和传承带来了新的可能性。其中,合合信息公司以其卓越的人工智能技术,为古彝文识别带来了创新。

🍅前言

在文化遗产保护领域,人工智能正在发挥着越来越重要的作用。古彝文,作为中国西南地区古老而独特的文字,承载着深厚的历史文化底蕴。然而,由于古彝文的书写复杂,传统识别方法往往费时费力,因此古彝文的保护和传承面临着重大的挑战。随着科技的不断发展,人工智能技术的运用为古彝文保护和传承带来了新的可能性。其中,合合信息公司以其卓越的人工智能技术,为古彝文识别带来了创新。

🍓古彝文介绍

彝文指的是云南、贵州、四川等地的彝族人使用的文字,其造字、使用方法在不同的区域之间表现出明显的差异。区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,至于彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。因此,对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。
7ad81beadedd41e1bb7ed4e45e78a8c2.png

网络资料

如上图所示,我们可以感受到彝文是一种具有丰富文化内涵和独特表现形式的文字,是中国少数民族文化宝库中的重要组成部分。

🍓古彝文识别的重难点

🍒原籍难以获取,传统翻译过程繁琐,周期长。

首先,古彝文原籍难以获得,由于彝族文化的封闭性和保守性,古彝文文献和文物不易获取,且常因自然灾害和难以保存而遭破坏,因此获取原始资料并深入了解其含义和文化背景异常困难。其次,古彝文翻译过程繁琐,需具备深厚的语言学、历史学和文化学知识,同时需对彝族文化和历史有深入了解才能准确翻译。最后,古彝文翻译可能需要十年起步,翻译者需投入大量时间和精力来完成翻译工作。

🍒版式多样,笔画相近。

汉文和彝文古籍的排版风格各异,字符间距和行距有密有疏。彝文古籍虽无大小字混排、双列夹字的校注传统,但也会出现加字、替字、整句倒置和文字方向不一致等现象,给文字定位带来挑战。此外,彝文字从未统一,存在大量异体字和变体字,各地方布摩为防止敌方破译经书会故意增加或减少笔画。

fb320cfcb600434ca860cb412930a44f.png

这四个字都表示“种类”的意思。由此可见,这样的异体字或者变体字给文字定位造成了很大的挑战。在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持。

🍒图像质量差,手写识别难。

彝文缮写员手写风格差异大,需大量数据库建识别模型,但目前无公开数据集且通晓者少,导致标注工作量大、数据量不足,需引入AI技术构建模型弥补训练样本不足。而且,汉文和彝文古籍经历多代传承、战火与自然风蚀,存在页面残缺、霉斑污渍等图像质量问题,尤其彝文古籍保存环境更艰苦,文本墨色深浅不一、字符间距和行距大小不一。

8d33e1bbaa10487488f7fe288bce4c2b.png

毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)

如上图,古籍的修复就要费很大力气,人工识别本就难上加难,更何况用AI技术去识别它,这是一项很大的挑战,万幸,合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对这些挑战!

🍒古彜文无统一的计算机编码

古彜文无统一的计算机编码,需要重新整理并增加相关标注数据。此外,古籍和字符部分存在背景干扰,需要通过技术手段逐一解决。为了使AI能够学习,字符的研究需要一个相对固定的编码,因此上海大学、合合信息和华南理工大学合作重新编制了一个编码系统。

🍓合合信息的文字识别技术

合合信息在古文字识别领域已有了一定的积累和成果。早在2021年、2022年的世界人工智能大会上,合合信息就展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。 因此,现在看来,在已有经验的前提下,合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情。

de12012b4eaf481db1e9491695ed4968.jpeg

智能文字识别技术是合合信息公司的核心技术之一,主要包括智能图像处理、基于深度学习的复杂场景文字识别和自然语言处理(NLP)三个核心模块。这些模块采用了一系列先进的算法和深度学习模型,以实现对文字的高效和准确识别。

智能图像处理采用了先进的数字图像处理技术,包括色彩平衡、对比度增强、滤波等算法,以实现对文档图像的高效处理。此外,该模块还采用了高级的图像分割和文字定位算法,以从图像中准确地提取出文字信息。这些技术对于文字的识别和提取至关重要,因为它们可以提高识别准确性并减少误差。

目前,合合信息旗下扫描全能王与上海大学、华南理工大学共同研发识别古彜文基础编码已经完成,此基础编码将帮助后续古彜文的检测、识别、标注,帮助学者解读更多彜文古籍,而扫描全能王的高清滤镜技术还可以高清拍摄古籍画面,感兴趣的同学可以下载体验一下

下图则是博主下载扫描全能王app后识别的彜文古籍,确实很清晰。

92647eb6924943989cad05c78442deb8.jpeg

b49d1172b327454188306a62b63c6db9.jpeg

🍓古彝文识别的意义

古彝文作为珍贵的文化遗产,其保护和传承具有深远的历史和文化意义。合合信息利用人工智能技术,成功研发出高精度的古彝文识别模型,为古彝文保护和传承带来了新的突破。通过数字化保存和传播古彝文,我们能够让更多人了解这一独特的文化瑰宝,并为学术研究提供便利。同时,这也为其他文化遗产的保护提供了可供借鉴的经验。让我们共同期待科技与文化的进一步融合,为文化遗产保护带来更多的创新和突破。

🍅总结

总之,合合信息公司在古彝文识别领域的突破性研究,为古彝文文化遗产保护带来希望,实现了文化遗产的数字化之旅。通过深度学习和人工智能技术,我们能够更好地保护和传承这些珍贵的文化遗产。让我们共同期待科技与文化的进一步融合,为文化遗产保护带来更多的创新和突破。

相关文章
|
3月前
|
搜索推荐
师资培训|AIGC在高校教学中的应用场景与案例分析-某产教科技公司
北京新大陆时代科技有限公司举办新一代信息技术名家大讲坛系列培训,旨在提升教师专业素质,加强“双师型”教师队伍建设。TsingtaoAI作为培训伙伴,提供全面支持。培训涵盖AIGC在高校教学的应用场景、教案生成及个性化教学资源定制等内容,助力提升教学质量与人才培养。
116 0
|
1月前
|
搜索推荐 自动驾驶 机器人
影智科技唐沐:人形是累赘,具身智能并不缺少落地场景
马斯克、黄仁勋等人的支持使具身智能成为2024年最受资本追捧的赛道之一。影智科技创始人唐沐认为,具身智能应以解决实际需求为导向,而非单纯追求人形设计。唐沐凭借其在腾讯和小米的丰富经验,打造了xbot咖啡机器人,该机器人已在多个场合成功应用,展示了具身智能的现实价值。唐沐强调,具身智能的核心在于提升实用性,而非追求形式上的“像人”。
|
8月前
|
人工智能 搜索推荐 大数据
AIGC文旅应用场景
【1月更文挑战第9天】AIGC文旅应用场景
313 1
AIGC文旅应用场景
|
8月前
|
数据采集 运维 监控
第8章:数字化引领革命:知识图谱与智能运维的魔幻交融
第8章:数字化引领革命:知识图谱与智能运维的魔幻交融
|
数据挖掘 新金融
《未来保险 新金融时代》——二、保险科技的第一性原理——特征3:代理人数字化赋能
《未来保险 新金融时代》——二、保险科技的第一性原理——特征3:代理人数字化赋能
153 0
|
监控 供应链 安全
【年终特辑】看见科技创新力量 洞见时代创业精神—智能制造—智能沛盒:数字化包装一应俱全
【年终特辑】看见科技创新力量 洞见时代创业精神—智能制造—智能沛盒:数字化包装一应俱全
189 0
|
人工智能 供应链 算法
案例酷 | 六国化工的数字化三级跳
者按: 在六国化工这一数字化转型案例中,依托 SAP 的 ERP 平台、基于阿里云“工业大脑”,再通过杉数科技自主研发的“求解器”产品搭建的 AI 决策中台,帮助到企业一步步解决人工问题,从自动化,到信息化 / 数字化,到实现数据驱动的 AI 智能决策。
254 0
|
人工智能
最近大火的AIGC是什么?有那些应用场景和产品?
AIGC:全称AI Generated Content,国内产学研各界对于AIGC的理解是继专业生成内容和用户生成内容之后,通过人工智能技术来自动或辅助生成内容的生产方式。顾名思义,就是用人工智能来辅助生成人们想要的内容。
|
人工智能 运维 供应链
|
人工智能 达摩院
汉典重光古籍数字化平台正式发布
达摩院汉典重光平台将捐赠给全社会
6439 1
汉典重光古籍数字化平台正式发布