AI+OCR赋能古彝文数字化—让经典重新跳动

推荐

━╋う一瞬間旳綻放╰☆╮ 2024-02-06 14:26 2024/02/06 ©著作权读给你听

文章标签 经典 AI OCR 赋能古彝文 专栏分类人工智能 阅读数6231 评论数0 点赞数0 收藏数0

导读：1️⃣ 彝文与古彝文概况文化是一个民族社会历史发展到一定程度的产物代表着文明发展的程度而文字是文化的一种载体 ..

1️⃣ 彝文与古彝文概况

文化是一个民族社会历史发展到一定程度的产物代表着文明发展的程度而文字是文化的一种载体文字的出现是社会进入文明阶段的重要标志之一其生动记录着一个民族的智慧成果深刻反映着一个民族的发展历史集中体现这一个民族的文化。

中国远古时代的彝族是相当庞大的部落族群其生息的区域从西部、西南部往中原地区延伸到东海之滨以刻划文字和十月太阳历为标志可追溯达万年历史的古彝人对世界本源、人类发展史的认识都达到了极高的程度中国的文明史时序由此向前推进了一大步。

古彝文字义对照图网络资料邵文苑供图

邵文苑古彝文数字化项目发起人上海大学社会学院人类学民俗学研究所讲师

彝文是彝族先民在长期的生产、生活实践中长期孕育、逐步提炼的文化产物在漫长的历史发展之中薪火相传生生不息。而古彝文指的是在民间流通使用的原生态彝文根据《滇川黔桂彝文字集》这些文字多达87046字。彝文起源于何时尚未有官方的定论有学者认为原始古彝文的创制和出现时间大致可推算为7000—10000年或以上。

以国内外相关考古研究与学术研究成果为参照以世界古文字珍稀遗产评鉴体系为依据来评价古彝文

文字生命力古彝文出现时间大致可推断为七千到一万年或以上彝文经过漫长的岁月洗礼仍保留着大量的原生性特征

文字影响力中国29个省市自治区都发现了古彝文刻划符号具有极大影响力

文字文化力古彝文文献数量较多、体量较大、底蕴深厚、内容丰富、体制完善而成熟

文字传承力彝族人口众多生活地域广袤有深厚的文化地域为古彝文的传播提供了广泛而稳定的群众基础。

综上所述古彝文中蕴藏着彝族数千年灿烂文明成果是中华民族传统文化的重要组成部分具有鲜明的民族个性和顽强的生命力古彝文是彝族、中华民族乃至世界的文化瑰宝建立古彝文OCR识别模型可以很好地完成古彝文文献的识别预处理操作缩短古文典籍研究周期。对古彝文的数字化保护有助于理解尚未被翻译成汉文、用字尚未规范化的古籍更深层、透彻地作用于传统文化保护。

2️⃣ 古彝文数字化的重难点分析 2.1、古彝文典籍残缺难以识别

彝文的传承一直以手抄的形式为主由族中的毕摩代代相传由于战火与自然风蚀的洗礼很多彝族文献遭到破坏和流失存在缺失、污渍、笔墨污染、模糊、印章噪声干扰目前, 从各地收藏单位收集到彝文古籍文献来看纸质文件存在泛黄变脆甚至出现残边、虫蛀等损毁问题; 一些碑刻、木刻的古彝文也由于长期的侵蚀字迹出现了模糊, 腐蚀等情况这对古彝文典籍修复、文本检测、文字识别带来极大困难。

毕节市彝文文献翻译研究中心展示古籍修复原件陈宗玉供图

传统的文字图像修复和识别专业研究人员是通过语境信息和感知信息进行即利用图像周围的像素以及综合标准文字中的各个特征要素来完成字符推演而计算机很难具备人的语境信息且古彝文没有标准文字库让计算机参照学习。

2.2、缺乏成熟的古彝文训练样本集

建立一个古彝文样本库是古彝文识别成功的关键因素直接决定识别的效果文字的认知需要很多的背景知识这些是人类在一定环境中长期积累形成很难系统地加以描述和组织当前对古彝文的研究主要集中在对古彝文文献的整理上再加上彝文字没有被数字化也没有预留的Unicode编码区段缺乏成熟可用的古彝文样本库和语料库故常规OCR识别方法高度依赖人工几乎需要专业人员逐字标注导致古籍数字化无法形成规模效应总体进程缓慢。

毕节市彝文文献翻译研究中心展示汉译书稿邵文苑供图

在人才方面具备古彝文语言专业知识的计算机技术人员极度缺乏计算机技术相对薄弱的文献语言知识领域的专家与缺乏文献语言专业知识的计算机技术领域专家两者之间不能进行完美的沟通合作难以突破技术层面以及知识层面的重重难题更遑论少数民族语料库的建设这不仅对于文献语言知识领域专家有着更多的要求对于计算机专业技术领域专家更是充满挑战。

2.3、古彝文字体多变笔画复杂

古彝文典籍时常出现加字、替字、整句倒置、文字方向不统一等现象更是给文字定位造成挑战再加上古彝文从未经过统一不仅异体字两个或多个视觉上完全不同的字很多还存在大量的“变体字” 即各个地方的布摩为防止敌方破译其经书而故意在现有字形上增加或减少一两个笔画产生的。比如

表示“种类”的彝文字的四个变体邵文苑供图

这样的变体字大量存在在彝文已经相对规范的汉译本中就有15 的变体字原稿中就更多了古彝文每个字的异体写法少则两三个多则几十种除此以外彝文还存在一些汉文所没有的笔画比如横飘、横回交有些字在视觉上无甚差异但实际上却是意义读音完全不同的两个字

两个形似、但音义完全不同的彝文字分别为“酒”、“仪礼” 邵文苑供图

这些笔画相近的字符不仅给OCR识别模型的建立造成困难而对于参与校注的初学者来说也是一大阻碍。

3️⃣ AI OCR 古彝文典籍数字化 3.1、OCR识别——古彝文典籍数字化的核心技术古彝文典籍数字化可以将古籍内容转换成计算机可处理的数字以达到存储、检索、传递、再生、利用等目的并且可以进行内容检索快速下载打印和复制还原也可以提供印刷出版或制作电子版图书通过网络还能实现远程传送、专题展览打破地域性资源的空间和时间的限制被最大限度地使用从而实现“资源共享”。

古彝文典籍数字化的价值并不止步于学术研究随着我国小康社会的全面建成人们对精神文化关注度日益提升以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机。

光学字符识别OCR(Optical Character Recognition)是对图片中所包含的文字图像自动识别并输出为字符编码的计算机技术包括版面分析、图像分割、文本检测、文字识别等技术过程。古籍数字化尝试由来已久但古籍文字字类多、字体多样外加流传过程中出现的各类损坏难度大、成本高。OCR是古籍数字化的核心技术是实现古籍数据库检索、文本挖掘、知识发现以及网络传播的前提和基础。

先进的OCR识别技术可以提供很高的并发处理能力针对大量古籍图像快速输出结果文件保证研究进度在保证古籍识别准确率能够达到较极高的水平的同时降低后期校对的人工投入 OCR识别核心技术主要由以下几个部分组成

图像预处理主要包括二值化噪声去除倾斜较正古文字常见的载体——龟壳和青铜器的表面都会不同程度地存在弯曲、反光、凹凸不平的情况古彝文典籍存在缺失、污渍、笔墨污染、模糊等噪声干扰首先要将拍摄到的图片素材在技术上进行“拉平”等矫正处理并做好对于阴影、噪点的处理

版面分析、字符分割将文档图片分段落分行然后将每行的彝文字符单独提取出来切分是否准确对于文字特征提取和分类识别将最终影响识别结果

特征提取古彝文字体多变笔画复杂的问题导致很多字只有一笔一划的差别存在许多相似字、变体字这对描述字符特征提出了更高的要求——系统必须使得两个相似字的类内差距尽可能的小类间差距尽可能的大。

字符识别根据提取的特征识别字符。常用的算法有模板匹配算法、支持向量机、贝叶斯分类算法和人工神经网络。

3.2、四字节编码系统——古彝文典籍数字化的坚实基石

上海大学彝文研究员研制的一种四字节编码系统理论上可描述四省区所有异体字、变体字之间的细微差异为每一个彝文字分配一个编码好像每个人都有独一无二的身份证号那样。在此基础上建立的数据库能较容易地找出误用字和混用字而且输出平台保留了原稿与编码的联系可以方便地定位某位缮写员的书法为将来开发多样化的字体做准备。

这种四字节的编码可以描述每个变体和形近字符之间的细微差别由此建立便于机器学习的数据样本。合合信息技术研发团队吸取上海大学古彝文研究专家及其所在院系深厚的人文社科学术底蕴以及前期积累的编码工作成果准确掌握文字研究方面的痛点细化目标拆解建立更精准、更符合研究需求的彝文古籍电子数据库。

合合信息携手上海大学推进的“原生态古彝文”研究项目根据四字节编码系统标注异体字、变体字、误用字和混用字并由此精确建立彝文古籍电子数据库的做法在古彝文研究领域属于首创。

3.3、合合信息AI智能文字识别技术——古彝文典籍数字化的万能钥匙

合合信息将基于“AI OCR”融合下的智能文字识别技术解决古彝文识别的版式检测、图像处理和文字识别的难题其与上海大学共同研究的《西南彝志》共计26卷有“彝族历史文化的百科全书”之誉。

智能文字识别技术主要包含了智能图像处理、基于深度学习的复杂场景文字识别、自然语言处理三个核心技术层。就古文的识别而言通常会涉及到行业存在两大典型难点一个是图像的优化处理再者是古文字的识别。

智能文字识别技术是合合信息核心技术之一主要由智能图像处理、基于深度学习的复杂场景文字识别自然语言处理 NLP 三大核心模块组成。其中智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理为接下来的文字信息提取、识别创造了良好的条件复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景以进行文字提取并结合领先的NLP技术对识别出的结果进行语义理解。

⭐针对图像质量差的问题彝文古籍经历了数代传承、战火与自然风蚀的洗礼难免出现页面残缺、霉斑污渍、墨色深浅不一、字符间距和行距大小不一的情况。合合信息采用智能文字识别技术对图像质量进行增强提升文字识别效率与准确性。

针对版式多样的问题汉文与彝文古籍的各类原稿的排版风格都不统一字符间距和行距有密有疏彝文古籍虽然没有大小字混排、双列夹字的校注传统但也时常出现加字、替字、整句倒置和文字方向不统一等现象。在过去的十几年中合合信息以智能文字识别技术为核心在图像的复杂版式识别、结构化智能理解层面做了大量的研究积累了大量经验这为古彝文识别提供了相当可靠的技术支持。

针对异体众多的问题未经整理规范的古彝文字符数高达了87000余个比康熙字典的字数还多给识别带来极大困难。合合信息智能文字识别技术采用AI模型深度训练学习深层语言特征有助于应对文字识别中“理解、认知”层面的难题。

针对手写识别难的问题古彝文目前没有公开数据集而通晓此种文字的人越来越少导致标注工作量大而人手少数据量严重不足合合信息智能引入AI技术构建模型弥补本项目训练样本不足。

4️⃣ 智能文字识别技术——合合信息让经典重新跳动

古文的研究是合合信息用智能文字识别技术促进中华文化传承、文化保护的社会责任体现这也对提高技术整体识别率赋能更广泛的大众应用非常有价值。不止在古彝文此前合合信息便在甲骨文、金文领域进行研究并基于“AI OCR”融合下的智能文字识别技术在解决古籍版式检测、图像处理和文字识别难题上取得了亮眼成果。

在2022年世界人工智能大会上合合信息将智能文字识别技术应用到了一篇镌刻在西周青铜鼎面的的钟鼎文金文识别上可谓难度颇高在没有人工干预的状态下钟鼎文从内凹状态被拉平并被转译成简体字 “克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒”等原本连在一起的复杂语句也经过“AI断句”功能自动处理后被区分开来方便大众理解。

在钟鼎文的处理过程中合合信息重点展示了智能文字识别技术的应用通过以“弯曲矫正”为代表的智能图像处理基于深度学习的复杂场景文字识别自然语言处理 NLP 三大核心技术层向曲面、模糊、阴影、非常规文字影响下的识别难题发起挑战精准实现复杂场景中的多语言识别。

一些参观者在展区还使用合合信息旗下产品“扫描全能王app” 用“拍图识字”功能一键扫描识别竖排繁体古籍《桃花源记》。面对破损、皱褶的古籍该功能通过图像文字效果增强进一步将古籍内容提取出来赋予更多人清晰、平整的古籍阅读体验。

不仅如此合合信息专注于智能文字识别、图像处理、自然语言处理 NLP 、知识图谱、大数据挖掘等技术。基于自主研发的领先的智能文字识别及商业大数据核心技术还为全球C端用户和多元行业B端客户提供身份证、票据数字化、PS篡改检测、报表OCR识别、切边增强、曲面矫正、阴影处理、印章检测等智能图像处理产品及服务。

合合信息还将重点关注自然语言处理领域不断精进AI“读懂”古文的能力去实现更多理解层面的事情以此更好地促进学术研究效率提升并通过降低古文理解门槛在文旅、文创领域触达更广泛的社会群体让传统文化焕发新的生机。

优惠劵
古彝文典籍数字化可以将古籍内容转换成计算机可处理的数字，以达到存储、检索、传递、再生、利用等目的，并且可以进行内容检索，快速下载打印和复制还原，也可以提供印刷出版或制作电子版图书，通过网络还能实现远程传送、专题展览，打破地域性资源的空间和时间的限制，被最大限度地使用，从而实现“资源共享”。古彝文典籍数字化的价值并不止步于学术研究，随着我国小康社会的全面建成，人们对精神文化关注度日益提升，以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机。复制链接
文本生成视频Make-A-Video，根据一句话就能一键生成视频 Meta新AI模型

66769
ChatGPT背后的技术和多模态异构数据处理的未来展望——我与一位资深工程师的走心探讨

33537
【云上探索实验室】编程范式变革进行时——CodeWhisperer实践全流程及测评分析报告

30191
Stable Diffusion复现——基于 Amazon SageMaker 搭建文本生成图像模型

30135
解决方案：幻兽帕鲁Palworld私服部署一杯茶的功夫搭建部署一个属于自己的游戏私服漫走云雾: 这篇文章犹如一道智慧的佳肴，令人回味无穷。作者的笔触既有深度又富有感染力，将复杂的概念阐述得清晰明了。文章内容丰富，见解独到，让我受益匪浅。尤其是那些生动的实例和深入的剖析，使我深受启发。同时，作者的行文流畅，逻辑严密，让我为之赞叹。再次感谢作者的分享，期待更多精彩之作。

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

更多文章请关注《万象专栏》

转载请注明出处：https://www.wanxiangsucai.com/read/cv182501

话题推荐： #经典# #AI# #OCR# #赋能古彝文#

打赏
0 赞
收藏
评论
举报

下一篇：四个月内掌握AI快速入门人工智能的关键技能与学习路径

发布评论

全部评论(0)

AI+OCR赋能古彝文数字化—让经典重新跳动

AI+OCR赋能古彝文数字化—让经典重新跳动

相关文章