当前位置:主页 > 论文 > 言语论文 >

基于条件随机场方法的汉语专利文本介词短语识别

发布人: 谜语网 发布时间:2015-10-03 字体: | | 打印文章

推荐阅读:摘 要:介词短语作为一种重要的短语类型在汉语中分布广泛,正确自动识别介词短语在自然语言处理的应用领域具有重要意义和积极影响。本文尝试利用目前比较流行的条件随机场模型,主要面向汉语专利文本,对其中的介词短语进行识别研究。首先在分词和词性标注的

摘 要:介词短语作为一种重要的短语类型在汉语中分布广泛,正确自动识别介词短语在自然语言处理的应用领域具有重要意义和积极影响。本文尝试利用目前比较流行的条件随机场模型,主要面向汉语专利文本,对其中的介词短语进行识别研究。首先在分词和词性标注的基础上对语料进行序列特征标注,然后利用条件随机场工具包训练了识别介词短语的模型,最后设计相关实验来验证方法的效果,实验准确率达到90%以上。

关键词:介词短语 条件随机场 识别

一、引言

专利文献在国家经济发展和科技交流中发挥着十分重要的作用。近年来,中国专利的申请数量涨速飞快。面向专利领域的文本信息处理(如专利文本机器翻译)逐渐成为自然语言处理的重要应用领域之一,并引起了学术界和业界的广泛关注。

为了满足专利文本特定的表述需要,介词短语作为一种重要的短语类型,在汉语专利文本中分布广泛。据统计,在随机抽取的500句汉语专利语料中,包含介词短语的句子有226句,占到了样本总量的45.2%。[1]可见介词短语的出现比例非常高。汉语介词短语的自动识别具有较大的难度,主要表现在以下几点:

1.介词短语的内部构成相当复杂。介词短语可以由介词与其他词语和短语(动宾短语、名词短语、方位短语、时间短语等)构成,甚至可以由整个句子构成。复杂的内部结构很容易形成远距离的搭配关系。

2.兼类介词的存在。在一定的语境下,介词还可以兼做名词、量词、形容词、连词和动词等,必须结合上下文语境才能判断具体词性。

3.在同一个句子中经常会出现多个并列的介词短语,或者会出现复杂的嵌套介词短语。

下面是一个包含介词短语的真实专利语句示例:

(1)本发明【在条件允许的情况下】【通过[为一个宏块中的不同区域]提供不同的预测信息】而提出了许多更加准确的结果。

从例句可以明显地看出,专利文本中的介词短语通常具有更多的字数和更为复杂的结构。例句中用括号标示出了两个并列的介词短语结构,其中一个的内部还有另外一个介词短语,属于嵌套结构的介词短语。正确识别这些短语就比较困难了。

考虑到介词短语分布的广泛性和对专利文本处理的影响,本文尝试利用条件随机场模型(Conditional Random Field,即CRF),主要对大规模专利语料中位于同一分句内部的介词短语进行自动识别研究,希望能做出一些有益的探索。

二、相关研究

三、CRF模型介绍

作为一种基于统计的判别式学习模型,CRF模型最早由Lafferty等人在2001年提出。该模型来源于最大熵模型。CRF通过计算和统计已知元素推理计算未知元素的条件概率。与隐马尔可夫模型不同,CRF可以利用上下文信息,而不需要严格的独立性假设,因此在序列标注问题中表现出很好的性能。此外,CRFs还解决了最大熵马尔可夫模型(MEMM)中的标注偏置问题。CRFs被广泛应用于自然语言处理领域的句法分析、命名实体识、词性标注等方面,并取得了很好的效果。CRFs是一种以给定的输入序列X为条件来预测输出序列Y概率的无向图(undirected graphical)结构模型。(X,Y)就是一个以观察序列为条件的随机域。概率计算可以通过如下公式得到:

其中,Z(X)是归一化因子,是特征集合,代表相应的权值。

四、基于CRF的介词短语识别

国外学者已经开发了完整的CRF模型工具包,利用工具包可以快速地训练模型并得到相应的结果。在本文中,将使用CRF++0.53版本的工具包①对中国专利信息中心提供的专利语料进行训练。 (一)序列标注

很多基于CRF模型的语块识别任务通常可以转化为序列标注问题。在识别介词短语的过程中,首先对包含介词短语的句子进行分词处理,然后对每个词语进行标注,确定介词短语的边界。我们采用{B, I, E, O}标记集进行标记。其中B表示介词短语的前界,I表示介词短语的内部成分,E表示介词短语的后界,O表示不属于介词短语的部分。

(2)本发明通过采用有效的方法提高汽车产量。

对于这个例句,可以做出如下标记:

本发明O通过B采用I有效的I方法E提高O汽车O产量O。O

将其反映到序列标注问题上,则可以认为:

输入序列X={本发明 通过 采用 有效的 方法 提高 汽车 产量 。}

相应地,输出标注序列Y={O B I I E O O O O }

(二)特征选择

特征是训练CRF模型必需的。在CRF中,特征选择是一个非常重要的问题,选择合适的特征对模型训练和测试都将十分有益。尽管可以不加限制地定义标记序列的特征,但不代表特征越多就越好。通过考察大规模语料中介词短语的特点,初步确定了以下五个特征及其属性值:

1.词特征。词作为句子的基本构成单元,是最基本的特征,模型可以通过词之间的差异性来寻找词本身的内部特征。

2.词性特征。通过分析发现,词性特征对边界的识别具有很大的提示作用。因此需要标记序列中词语的词性。本文采用北京大学《现代汉语语法信息词典》中的词性标记集进行标记。

3.候选前界特征。从当前词位置开始向前查找,查找位于同一分句中的介词。如果该介词存在,则该特征值为介词本身;否则特征值为“N”。

4.候选后界特征。如果认为当前词语可以作为介词短语的后界,则特征值记为“Y”,否则记为“N”。

5.候选后词特征。后词对介词短语的正确识别也起到了很大的提示作用,判断当前词是否是候选后词也能减小后界的选择范围。如果认为当前词语可以作为介词短语的后词,则特征值记为“Y”,否则记为“N”。

下表是例句2的标注实例:

词语 词性 是否

候选后界 是否

候选后词 候选

前界 介词短语

标记

本发明 n N N N O

通过 prep. N N 通过 B

采用 v N N 通过 I

有效的 a N N 通过 I

方法 n Y N 通过 E

提高 v N Y 通过 O

汽车 n N N 通过 O

产量 n N N 通过 O

。* p N N 通过 O

* 注:分词序列中所有的标点符号均标注为“p”。

将以上五个特征分为五列,对分词处理后含有介词短语的每一句语料进行标注,同时在最后一列加入{B, I, E, O}标记集,以确定介词短语的边界,以此形成训练语料和测试语料。

(三)特征模板

对于CRFs模型而言,根据选择的特征设计出不同的特征模板,根据特征模板系统生成不同的特征函数,会影响系统的性能。因此,特征模板选择的好坏将直接影响CRFs模型的效果。所以,特征模板的选择也是CRFs模型在介词短语识别中的重要问题之一。

CRFs模型的特征模板一般包括原子特征模板和复合特征模板。单独使用原子特征模板,只能表现出单个位置的特征信息,容易造成期望值和实际结果的偏差较大,导致参数的估计不准确。可以对原子特征进行组合,构成复合特征模板,通过定义各特征的窗口来描述标注单元和上下文之间的关系。本文将窗口大小定义为2。即分别考虑当前词、当前词前面两个词及后面两个词的五项特征。

当完成了序列特征标注任务,就可以利用CRF工具包对模型进行训练并识别介词短语了。

五、实验及分析

(一)实验结果

在这一部分,设计实验测试CRF模型识别介词短语的效果。从中国专利信息中心提供的专利语料中随机选择了1000句含有介词短语的句子作为测试集进行序列标注。实验采用四倍交叉验证方法,即将测试集按照数量均分为4等份,其中的3份语料作为训练语料,另一份作为测试语料,共进行四次实验,分别计算实验的三个评价指标:准确率(P)、召回率(R)和F1值,并将实验的平均值作为最终的参考结果。评价指标计算公式如下:

表2:实验数据结果

实验 P (%) R (%) F1 (%)

实验2 91.41 88.73 90.05

平均 92.65 90.07 91.33

(二)实验分析

从上表可以看出,实验的整体评价指标都达到了90%以上,表明CRF模型对于识别介词短语的有效性。

通过分析识别错误的结果,初步认为分析错误的原因可能有以下几点:

1.有的介词在训练集中出现次数很少或者几乎没有出现,因此CRF模型无法有效学习到这些介词的特征,当它们出现在测试集中,模型就难以正确识别。

2.有些介词短语具有歧义,模型不容易判断短语的右边界位置。例如:通过墨水着色剂可以有效地使染布上色。这句话中,两个名词“墨水”和“着色剂”挨在一起,不确定二者是否可以组成复合名词,不容易判断到底哪个名词才是介词短语真正的右边界。 3.CRF模型对于序列的标注特征比较敏感。在人工标注的过程中一些难以避免的标注失误或错误也会导致识别错误的现象。

六、结语

本文利用条件随机场模型尝试对汉语专利语料中的介词短语进行了识别研究。在分析大规模语料的基础上,选择了合适的特征,对语料进行序列标注,同时利用CRF工具包训练了识别短语的模型,最后设计了实验检验识别效果。实验整体的准确率达到了90%以上,表明提出的方法对于识别介词短语是有效的。

未来将加强对歧义介词短语的研究,考察更多语料,争取发现更多有效的特征,同时扩大测试规模,希望进一步提高识别的效果与性能。

(本文得到了“国家高技术研究发展计划”[863课题,项目编号2012AA011104],中央高校基本科研业务专项资金以及中国博士后科学基金资助项目的资助,特此表示感谢!)

注释:

①http://crfpp.googlecode.com/

参考文献:

[1]Li Hongzheng,Zhu Yun,Yangyang,Jin Yaohong.Reordering

Adverbial Chunks in Chinese-English Patent Machine Translation[A].Proceedings of CCIS2014.

[2]梁猛杰,宋玉,韩英杰等.基于规则排序的介词用法自动识别研

究[J].河南师范大学学报(自然科学版),2013,41(3).

[3]黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版

社,1998.

[4]朱筠.基本句群处理及其在汉英专利机器翻译中的应用[D].北

京:北京师范大学汉语文化学院博士学位论文,2013.

[5]胡韧奋.面向汉英专利机器翻译的介词短语自动识别策略[J].

语言文字应用,2015,1.

[6]于浚涛.基于最大熵的汉语介词短语自动识别[D].大连:大连理

工大学硕士学位论文,2006.

[7]奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算

机工程,2007,33(2).

[8]胡思磊.基于CRF模型的汉语介词短语识别[D].大连:大连理工大

学硕士学位论文,2008.

[9]宋贵哲.汉语介词短语识别研究[D].大连:大连理工大学硕士学

位论文,2011.

[10]张杰.基于多层CRFs的汉语介词短语识别研究[D].大连:大连

理工大学硕士学位论文,2013.

[11]干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学

报,2005,(4).

[12]昝红英,张腾飞,张坤丽.规则与统计相结合的介词用法自动

识别研究[J].计算机工程与设计,2013,(6).

[13]Lafferty J.,Mccallum A.,Pereira F.Conditional

random fields:probabilistic models for segmenting and labeling sequence data[A].Proceedings of the International Conference on Machine Learning[C].2001.



1、“议论文格式”范文由查字典范文网网友提供,版权所有,转载请注明出处。
2、议论文格式例文地址:http://www.tkpao.com/lunwen/yanyu/162693.html,复制分享写作指导范文给你身边的朋友!
3、文章来源互联网,如有侵权,请及时联系我们,我们将在24小时内处理!