推荐阅读:摘要:随着科学技术不断发展,各种信息资源数量不断增多,人们往往需要进行一些必要信息处理,因此信息处理已经成为一项重要内容。信息处理设计多方面内容,主要包括词性选择、信息筛
摘要:随着科学技术不断发展,各种信息资源数量不断增多,人们往往需要进行一些必要信息处理,因此信息处理已经成为一项重要内容。信息处理设计多方面内容,主要包括词性选择、信息筛选、自然语言理解、摘要筛选、自动标引筛选、信息结构分析、信息检索等。针对当前信息处理需求,本文就中文信息处理若干关键技术进行研究。
关键词:中文信息处理关键技术检索
随着人们各项需求不断提升,信息处理技术得到长足发展,产生多种有效信息处理关键技术,这些关键技术改进了基于概率统计的属性选择算法,改进了词语间依存关系的定量识别,提出具有增量学习能力以及信息分类法以及基于子空间的信息聚类算法等,这下关键技术给信息处理带来极大便利。
1 中文信息处理的难点
从全世界范围来看,汉语是一种相对独立的语言,无论语言结构上还是文字上都与其他语言存在天壤之别。汉字是一种综合性文字,集合了匈奴、鲜卑、突厥、契丹、满、蒙古、梵语灯多种文字,由此造就中文以下特点:
(1)中文完全由象形文字演变而来,是当今方块字的主流。
(2)汉字以单个汉字为基本单元,词语之间并不存在明显分隔符,也不存在明显的形态标记。因此中文信息处理中一大难题就是中文分词,即在进行中文信息处理过程中会出现一定错误率,降低了信息处理效果。
(3)中文处理结构较为松散,在对同一句子处理过程中可能得出不同结论。
(4)汉语语法具有较强灵活性,句子本意处了语序关系外还与需靠意合和虚词。
当前大多自然语言处理均通过英文为研究对象发展而来,因此英语在世界范围内更具通用性。中文无论在发音、文字、语法、语义等多个方面均与英文存在较大差异,因此中文信息处理无法将英文信息处理方式照搬过来,甚至在形式上都难以模仿。从计算机模型角度来说,汉语是其中不够发达的语言,因此对中文信息处理带来巨大挑战和压力。
2 中文信息处理需求
随着信息大爆炸时代的到来,信息量呈现数量级增加趋势,各种信息不断丰富,这也信息获取过程更加高效便捷,必须对信息处理方式进行研究,尤其是研究高效准确的信息处理算法。通过科学有效的信息处理办法促使人们在信息海洋中能够及时获取自己需要的信息。
信息处理方式设计多方面内容,主要有信息分类、信息摘要、信息聚类、信息索引、主题标注等等。当前中文信息处理已经开始深入探究并取得一定成效,并出现一些具有代表性关键技术,为中文信息处理提供有效平台。
3中文信息处理基础
中文信息处理主要指通过计算机程序语言对汉语进行存储、转换、加工、分析等,从某种意义上来说中文信息处理主要指一门利用计算机心理学、数学、科学、信息论、声学、控制论、智能化等多种计算机相关功能进行综合处理的边缘学科。
4 中文信息处理若干关键技术
4.1 汉字编码
汉字编码是汉字信息处理中最重要部分之一,也是中文信息处理过程的重要技术,当前中文信息处理中汉字编码是一个难题,从整个信息处理过程来看是薄弱环节,当前国内汉字编码方式不下于四百种,而实际能够运用于计算机的不超过五十中,这些汉字编码均通过键盘输入,主要有小键盘、中键盘、大键盘三种,就编码方式来看主要有拼音码、笔形码、字元码、影响结构的混合编码几种。(如图1)
拼音码在汉字编码研究初期便实现,但由于汉字存在大量多音字现象导致汉字检索重复率较高,给中文信息处理带来较大难度。
笔形码指将汉字通过笔画进行分类,将汉字与对应数码或英文字母,并按照一定组合原则生成汉字代码。如当前常用的五笔码就是笔形码之一。
字元码主要产生于字典查询汉字中的部首而来。当前人们常用键盘由于键盘数量有限,无法将所有字元都一一对应于键盘上,因此字元码采用分组方式,将若干字元分为一组,该组对应与某一按键上,因此便形成人们常说的二十六键、三十六键、六十键、九十键等几种原理相同的编码方案。汉字所包含的字元数各不相同,从一个到七八个不等。因此为节省存储空间提高输入速度需进行汉字字元码码长限制。
音形结合码主要是将汉字读音部分信息与汉字自行部分编码结合在一起,该种方式集合了汉字音码以及形码的有点,同时兼具音码以及形码的缺点。目前仍旧处于探究阶段。
汉字编码问题相当复杂,入门简单,深究却存在较大难度。
4.2 汉字信息的压缩存储技术
当前较为先进的汉字信息的压缩存储技术主要包括高密度点阵字模的压缩存储与再生技术,初除此之外还有汉字信息压缩迭加还原技术。我国中科院某学者研究成功的汉字信息的压缩存储技术E能够成功将汉字压缩至16K。
4.3 中文图书情报检索系统
相比于西方图书情报检索系统,我国在该方面起步较晚,目前虽然已经建立一些实验性图书情报检索系统,但针对中文这一特殊字体而言系统性不足。随着人们需求不断增加,中文信息处理技术处于不断完善中,我国在中文图书情报检索系统实验研究阶段取得一定成绩。目前已经可以进行各项资料联机处理实验,南京某科研所已经使得科技档案管理系统具有四种检索功能,分别为顺序号、档案号、标题、课题。当前图书馆中方图书情报检索系统仍旧存在一定不足,需要进一步完善发展。(如图2)
4.4 中文信息处理的发展动向
中文信息处理技术在过去一段时间获得长足发展,已经能够满足人们对中文信息处理基本需求,从长远角度来看为更进一步促进中文信息发展必须度仍旧存在的问题进行深入分析探讨,并未中文信息处理技术提供发展方向。
由于中文具有一定识别难度,若强行提升中文识别度具有一定难度,也难以推广,因此可以将中文翻译为英文,即中英文自动翻译技术。
未来中文信息处理输入方式必将由手写输入改为更为便捷的语音输入,因此需研究汉语语音识别与合成技术。除此之外还有汉字印刷体自动识别技术等。
5 结语
随着科学技术不断发展,人们在工作、学习过程中需借助中文信息处理技术搜索自己需要的信息,基于人们需求不断增加,必须提升人们搜索资源的效率,提升中文信息处理相关技术,让中文信息处理与时俱进,满足人们实际需求,为社会发展提供助推力。