本期专访团队:阿尔泰电子

项目团队是由博士生领衔的跨学科团队。项目负责人欧日乐克拥有丰富的行业经验和学术积淀,美国微软、加州大学伯克利分校等曾为他颁发了相关成就证书。关于创始人复杂文字研究与创业的事迹多次登上央视《新闻联播》、《朝闻天下》等多家权威媒体。指导教师为项目资源整合,提供了全方位的指导。项目的顾问团队由国际知名学者和国内知名学者构成。内蒙古大学国家级和自治区级创新平台为项目保驾护航,学校也提供了场地、与行业资源合作对接的机会。
Q&A

内蒙古大学参赛队伍及老师合照
国家高度重视少数民族古籍数字化,提出了一系列重要指示。2019年7月习近平总书记考察内蒙古大学时做出的重要指示,参观蒙古文古籍时说“加强蒙古文古籍的搜集、整理、保护、挖掘,弘扬蕴含其中的民族团结进步思想内涵,激励各族人民共同团结奋斗、共同繁荣发展。”《中共中央办公厅、国务院办公厅关于推进新时代古籍工作的意见(2022)》也强调“围绕铸牢中华民族共同体意识,深入整理反映各民族交往交流交融历史的古籍文献,挖掘弘扬蕴含其中的民族团结进步思想,引导各族群众树立正确的中华民族历史观。”
Q:
鉴于少数民族古籍数字化的复杂性,你们团队是怎么进行后期工作的?
A:
我们参加的是“青年红色筑梦之旅”赛道的比赛,乡村振兴、城乡社区治理不只是一个经济问题,也是一个文化振兴和民族团结问题。
少数民族古籍中有很多民族融合与团结的内容。中国有95万部少数民族古籍,但完成数字化的不到3万部。这归因于少数民族文字复杂多变,识别起来非常困难。与中文相比,蒙古文等文字的形变规则让数字化难度大了不止十倍。此外,古籍数字化设备、技术、软件的弊端明显,无法识别复杂文字、无法识别手写文本、缺乏听、说、读、写为一体化的软件。这使少数民族古籍数字化成为世界性难题,遗落海外的少数民族古籍迟迟不能回来的原因也在这里。
我们的项目是致力于优化少数民族古籍数字化难题,为此提出了复杂文字古籍文献数字化一站式解决方案。我们的方案里不只有自主研发的技术、设备,软件还有以这些工具构建的文献数据库,可用来转换,应用于不同的领域。

Q:
在少数民族古籍数字化过程中,遇到的主要技术挑战是什么?
A:
2020年我们成立了内蒙古阿尔泰电子信息技术有限公司,开始了从零到一的技术研发。我们克服了许多困难,仅用两年半的时间,就成为了国家高新技术企业。几年来,我们历经1200个日夜,从初代亚克力材质的雏型机到第六代机器人,所有的设备、电路、驱动、软件均由我们自主研发,真正做到了国产替代。公司拥有和正在受理中的专利达9项、软著十余项。
文字识别是我们所面临的最大挑战,也是本项目最大的价值所在。不同于汉字以单字聚类方法识别,我们采用了行识别来攻克这道难题,识别率高达98%,还能进行版面分析和还原,在复杂文字古籍识别领域,属于行业领先地位。此外,提升识别效率是我们的目标。为此,我们研发出全自动翻页扫描机器人。只要将书放上去,就能自动完成扫描识别,其识别效率比人工录入提升近30倍。我们还有少数民族古籍数字化平台。 其听、说、读、写等一体化功能跨越了语言的障碍,成为各民族文化相知、相融的桥梁。
Q:
针对少数民族古籍数字化的长期可持续性,您的项目有哪些规划,包括技术更新、资金支持等方面?
A:
目前,我们与多家政府部门、企业、高校达成了合作。典型案例有我们为百度解决的蒙古文识别的技术难题,这一项目被选入《OCR产业范例20讲》并在全球最大的代码网站GitHub上获得了4.3万点赞。我们共对8种文字,3000余本,5500万词规模的少数民族古籍完成了深数字化。这是挖掘少数民族古籍中的团结进步思想的“取之不尽,用之不竭”的宝库。我们已与中国邮政、得力的供应商—美恒通智能电子(广州)股份有限公司进行联盟,打通了生产和销售渠道。
我们始终“坚持把马克思主义基本原理同中国具体实际相结合、同中华优秀传统文化相结合”,在民族融合、文化与技术融合、中国与世界融合方面做到了“三融合”。
习近平总书记曾说:“没有高度的文化自信,就没有中华民族的伟大复兴。”牢记嘱托,团队将继续在复杂文字古籍数字化领域耕耘,争做新时代科技与文化相融的典范,为中华民族伟大复兴献一份力量!