APP下载

传承华夏文化创立民族品牌

2015-03-11

创新时代 2015年2期
关键词:中文信息华兴部件

“我国有着上下五千年的灿烂文明史,汉字是我们中华民族传统文化的精髓,是华夏文明的瑰宝,也是全世界流传至今最古老、最优秀的语言文字。在步入网络时代的今天,电脑的普及率代表了一个国家的信息化水平和文明发展程度。汉字能否驾驭网络化信息时代,成了考核我国汉字现代化水平的标志,也是加速汉字国际化和中华文化走向世界的关键。中国空空导弹研究院华兴初发明的汉字表征码中文信息处理技术,为中国汉字走向世界作出了肯定的回答。

汉字文化传承,困难重重

近年来,我国表面繁荣的电脑市场后面,早就种下了鲜为人知的“先进技术难登场,劣质产品有市场”劣根,新世纪以来,往日轰轰烈烈的中文信息处理汉字编码和输入法发明运动黯然偏离了人们关注的视线,但这并不等于中文信息处理技术已日臻完善,而是一系列无法解决的难题令专家束手无策,甚至对“937计划”部署的重大基础技术—中文信息的获取,至今没有搞清。

中文信息处理技术至今仍存在诸多难题:“音盛形衰”,不能展现民族特色,提笔忘字,汉字还原率极低,错别字成灾;“编码运动”忽视汉字的排序功能,各行各业的中文信息的查、检方法落后,速度慢,字典有字查不到,电子字典的先进功能无法发挥,中文基础教学部门墨守成规,拒绝创新,“找不到”规范、易学、高效、减负的突破口;以五笔字型为代表的中文信息处理技术落后、复杂、难度大,电脑应用无法普及,开拓国内市场都很有限,走向世界之路更是渺茫;低级杂乱的输入方法无法规范统一,中文信息处理领域的全面规范化实际上没做到,也做不到,我国的信息化社会进程无法有效融入世界;中国信息产业完全由外国掌控,手机没有自主创新的知识产权,它的芯片92%由外国掌控,网络安全也就掌握在外国人手里,在一定程度上危及国家安全;汉字信息压缩技术并没有彻底解决中文信息的输出入问题,更没有能力全面支持中文信息处理工作的正常开展,严重地制约中文走向现代化、国际化的进程;中文信息处理技术拿不出创新的亮点;无人敢提中文赶超英文的问题,长期以来,中文西化论阻碍了中文成为国际化的文字与语言的前进步伐;中文信息处理主流技术哗众取宠,滥用智能技术,把严肃神圣的中文糟踏得字不字、词不词、语不语、句不句,教坏了学生,扰乱了中文基础教学的规律,还影响了国家的形象与民族的尊严。

创新突破,汉字表征码问世

科技创新的本质是把重大的、复杂的、长期解决不了的、看上去不可能解决的问题简单化,而且越简单越好。华兴初发明的汉字表征码中文输入方法,完全做到了这一点,可以成为全世界从娃娃开始所有人都能掌握的通用技术。

汉字表征码的基本原理可以概括为:把汉字的部件按外形特征相对于英文26个字母在音、形、义三方面的一致性划分成600个左右的基本部件,用这些部件可以构成绝大多数中文字,并把这些部件按类型列出基本部件表;根据部件在构字时的位置,按先左后右、先上后下的顺序排列成部件序列,如“汉”、“徵”、“霹”三个字的部件序列表示为:汉︱氵又;徵︱彳山一王攵;霹︱雨尸口立十;然后根据部件的类型,把每个字的部件序列改写成对应的英文字母序列,汉︱氵又/dv;徵︱彳山一王攵/befiv;霹︱雨尸口立十/trocp,得到的结果就是汉字的编码(实际应用时这一步可以跳过);把编码按规则键入电脑。

汉字表征码唯一要“死记”的就是26种部件类型,其余都可熟能生巧。表征码从系统工程的角度出发,创立了只有编码才是整个系统中决定中文信息处理实现四个“化”的环节;而且只有利用中文的部件才能编出四个“化”的码来;部件能被用来决定四个“化”的信息只有部件的外形特征;部件的外形特征最简单、最现实也是最科学的办法,是参照26个键盘字母从音、形、义三方面进行分类等一系列理论问题和方法问题。正是这几个环节环环相扣奠定了保证中文信息处理民族化、大众化、规范化和国际化的基石。

性能优越,意义非凡

华兴初介绍说,汉字表征码的优越之处在于,相对于英文单词一半以上超过8个字母的现象,通用的汉字表征码码长一般只需4位,而且独体字(一个部件就是一个字)和只有两三个部件的简单汉字的数量大体超过总字数的一半。因此只需取码长6位就可能使几十万汉字避免重码(当然这样要求并无绝对的必要)。据对1.2万个简、繁、异体字统计推算,如用6位码(4位码的理论容量为47万,它不可能为数十万汉字编出理想的码来,因为根据方块字的特点,绝大多数码将轮空,将会造成严重的重码。6位码的理论容量超过3亿,因此,码长6位可以满足汉字表征码的需要),凭现有表征码技术,即使那些前面有四五个部件相同、最容易发生重码的字也不会出现重码。若今后扩大字库,产生重码的概率很低。即使出现,解决起来也不难。

另外,汉字表征码从理论上抓住了编码这个关键性环节,一举突破了千百年来公认的中文难题,研究方法使人耳目一新。华兴初用一、二、三、四、五、六“六字诀”来概括表征码的性能:

一是汉字表征码可以一码定乾坤,从根本上解决中文走向世界的问题。汉字表征码有充分的理由向世界宣告:中文永远不可能西化!

二是汉字表征码具备中文排序和中文信息处理两大功能,而且两者都赶上超过英文。

三是将部件形状、部件外形特征符号(表征符)、键盘字母三者在音、形、义三方面直接对应,使汉字信息处理做到三个一步到位:见字直接翻字典;见字直接敲键盘进行中文信息处理,速度比英文快;见字就能正确确定任一个汉字在任何一个规范化字表或字符集中的位置。

四是汉字表征码为中文信息处理四大标志性工程的顺利完成提供了技术基础与实现的可能。四大标志性工程是:中文全库的建成;中文输入方法全面达到四个“化”;中文信息技术的全面规范化;中文信息的无障碍输出/入电脑。四大标志性工程完成之日就是中文现代化、国际化到来之时。有了汉字表征码,实现这个过程只需5~10年。

五是中文信息处理技术中五个环节的五个核心是保证中文信息处理赶超英文的理论基础。这五个核心是:中文信息处理技术的核心是四个“化”;四个“化”的核心是民族化;民族化的核心是编码;编码的核心是汉字的部件;部件的核心是它们的外形特征。这五个环节环环相扣,保证了汉字表征码成了名副其实的民族化、大众化、规范化、国际化的编码—真正属于汉字自己的编码。

六是汉字表征码能保证中文信息处理达到六个所有:适用于古、今、中、外、繁、简所有汉字;所有视力、智力正常的人都能学会、掌握;涵盖所有汉字信息的应用和管理领域;至少经得起东汉说文解字以来汉字发展的所有时空的检验(含将来中文字库的“无限”扩展与创新);具有所有汉字编码的优点;尚未发现以往所有汉字编码存在的缺点。

华兴初介绍说,表征码几乎不需要规则,基本不需采取什么技术措施,就能见字敲键盘,进行中文信息处理。据以8300个通用“规范”汉字及其繁体字、异体字约12 000字进行统计,平均码长为3.5左右。对规范说明部分关于简繁体关系一段论述编码结果达到52%的汉字没有重码,36%汉字的重码字数为2~5个,10%汉字的重码字数为6~10个,只有不到2%汉字的重码字数在10个以上(总字数约230个),这样的性能对于绝大多数用户和汉语基础较差的娃娃与外国人使用起来,足够满足几辈子的需要!

传承文明,助圆“文化强国梦”

汉字表征码不仅仅是中文信息输入方法的一个创新,是对汉字和部件的认识方法和利用的创新,而且是IT革命从低级到高级的一次根本性跨越,是民族文化与西洋文化的两种认知概念的巧妙融合,表征码的计算机汉字输入法把中西方文化的认识差异在现代技术的结合点—电脑键盘上一“键”勾销,中文赶超英文,中文进入世界就会从理想变成现实。

中文信息处理技术的全面突破其意义不仅在于中文信息处理本身,而且还可以在教学上彻底决中文基础教育的难题,建立起一个“以汉字为本、以部件为核心、以拼音为工具的汉字学习、汉字查检、汉字信息处理三位一体的规范、优质、高效、减负的新颖汉语基础教学体系”;在经济上可以把中文信息处理技术与产品从现在的只有国内的有限范围扩大到全世界各个角落,中文电脑就与英文电脑没有差别,其对国民经济的拉动作用将是以往的几倍!更重要的是政治上可使我国有条件建立一套中文独立的信息处理系统,摆脱英文互联网对中文信息交流的控制,确保我国网络安全甚至国家安全,意义深远,非同一般。

华兴初表示,有了中文信息处理技术和汉字表征码,中文将再开创一个向现代化、国际化大踏步迈进的新的辉煌历程,并最终将与英文一样成为又一个国际化的语言与文字。对提高我国的文化软实力,提升我国国际地位,建设文化强国具有极大的意义。

猜你喜欢

中文信息华兴部件
陈华兴教授
隐蔽战线上的华兴人
中国中文信息学会2019年活动计划2019年活动计划表
基于Siemens NX和Sinumerik的铣头部件再制造
中国中文信息学会2018年学术活动计划
部件拆分与对外汉字部件教学
水轮机过流部件改造与节能增效
辽宁华兴集团
焦利氏秤各部件的修理和改装
书 讯