推荐阅读:摘要:演化趋势检测能提前获取话题的演变轨迹,有效提高决策者对于话题舆情处理的主动性和预判性。针对该需求,该文深入研究新闻话题的演变过程,利用K-means算法对专题新闻报道集进行聚类,得到新闻话题演化阶段的不同类簇,并且采用Text Rank方法提取各个
摘要:演化趋势检测能提前获取话题的演变轨迹,有效提高决策者对于话题舆情处理的主动性和预判性。针对该需求,该文深入研究新闻话题的演变过程,利用K-means算法对专题新闻报道集进行聚类,得到新闻话题演化阶段的不同类簇,并且采用Text Rank方法提取各个新闻话题演化阶段的有效关键词,然后基于时间信息,整理生成话题演化趋势。该文以百度百科相关词条的客观描述作为评判标准进行算法评测,实验结果表明本文算法具有较高的准确性。
关键词: 话题演化; 演化趋势; 趋势检测; K-means; Text Rank
Abstract:The evolutionary trend detection can obtain the topic evolution track in advance, and it can effectively improve the initiative and anticipation of the decision for the resolution of the public opinion on the news topic. According to the requirement, this paper studies the evolution of news topic firstly, using k-means algorithm for clustering of special news and getting different clusters for different stages of news topic evolution. And then we extract the keywords existing in various stages of news topic evolution with Text Rank model to represent the topic evolution trend based on temporal information in news pages. Finally, this paper takes the objective description of the relevant entries of Baidu encyclopedia as the evaluation criteria for the assessment of the algorithm, and the experimental results show that the algorithm is of high precision.
Key words:topic evolution; evolution trend; trend detection; K-means; Text Rank
显然,如果政府部门能够及时、准确地掌握该话题的演化轨迹,就能针对话题各个阶段采取相应的应对措施,特别包括网络舆情的监控,有效地对重大公共突发事件进行全面管控,避免或者减轻突发事件对社会带来的不利影响。针对该需求,本文提出了面向网络新闻的话题演化趋势检测模型,通过对专题新闻聚类划分出新闻话题不同发展阶段的类簇,对新闻类簇进行关键词抽取,根据新闻报道中的时间信息,整理生成专题新闻集合的话题演变轨迹,有效挖掘出新闻话题的演化过程,有助于提高政府及相关部门应对社会突发事件的决策力。
1 话题演化趋势检测
本文根据话题演化研究的实际需要,对专题新闻文档进行话题演化趋势检测,采用图2所示的研究流程先后完成新闻文档预处理、新闻话题聚类、话题演化特征抽取以及话题演化序列构建等关键研究任务。
2.1 新闻话题聚类
对文档进行聚类时,可以根据需要将新闻话题划分成相应数量的类簇。话题演化聚类结束后,将目标新闻话题相关的新闻文档序列组织成一系列类簇,每个类簇代表一个话题演化阶段,而整个新闻文档序列则全面体现了目标新闻话题的演化轨迹。K-means算法是最为经典的基于划分的聚类方法,K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果[7]。一般都采用均方差作为标准度量函数,如公式1所示。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开,输出结果是k个类簇的集合。
假设要把样本集分为S个类别,算法描述如下:
(3)利用均值等方法更新该类的中心值;
(4)对于所有的S个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。
该算法的最大优势在于简洁快速,算法的关键在于初始中心的选择和距离公式。
2.2 话题演化特征抽取
多篇新闻报道聚类后,类簇的核心思想(话题)是由文中的词项来体现。通过词语间的语义关系分析,找出最能代表该类簇核心内容的特征词项。为了弥补传统方法(TF-IDF模型)只计算文中词语词频而没有考虑词项之间语义关系的不足,本文通过构建词项间的Text Rank模型[8],分析多文档间词项的语义关系,抽取出有效关键词。
Text Rank与Google提出的Page Rank非常类似,它本质是在以词汇作为顶点、词之间关联作为带权或无权,有向或无向边的图上进行random walk的过程[9]。Text Rank模型表示为一个带权有向图G=(V,E),由点集合V和边集合E组成,E是V×V的子集,图中两点i,j之间的权重为Wji。对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。点Vi的分数定义为:
构建Text Rank模型是根据待选关键词词语之间的语义相似关系大小来决定是否在两个词语之间建立边。因此,Text Rank图是带权无向图,边的权重为两个词语之间的关联度,通过词语间的投票递归计算出权重,关键词的选取按分数序列从高到低选择,选取范围可以根据需要设置。
2.3 话题演化序列构建
新闻作为一种流数据,新闻话题具有明确的动态变化性,话题随着时间的发展而演化,反映了新闻事态阶段性渐变的过程。当用户关注某个新闻话题时,都希望能从了解新闻话题事件的缘由开始,逐步深入到事件的发展、高潮,最终到话题事件的结束,整个逻辑顺序就是新闻话题完整的动态演化[10]。本文将对基于时间模式和基于逻辑模式的话题演化序列构建展开研究。
新闻话题聚类后形成不同的类簇,但由于特定话题相关的新闻报道的主题是一致的,因此其中类簇中包含大量的“共性词”。例如“新兴煤矿瓦斯爆炸事故”专题新闻聚类后形成五个类簇,在五个类簇中的关键词中,“事故、煤矿、爆炸、矿工”等词语的分数都较高,属于该主题的共性关键词。因此,在分析每个类簇的特征时,选择除去“共性词”以外评分较高的词语作为这类新闻报道特征词。同时,本文根据百度百科中相应话题(事件)的话题目录(如图5所示)为标准构建基于逻辑模式的话题演化序列。显然,新闻话题的内容描述是按照事件发展的逻辑顺序建立的,因此,基于话题目录构建话题类簇能够直接反映话题的演化过程。
3 实验结果与分析
3.1 话题演化序列检测结果
不难发现,由于聚类模式的差异导致两种检测方法得到的类簇具有明显区别,在话题特征的选择上存在较大出入。因此,为了进一步评测两种方法的性能优劣,我们对基于时间模式的话题演化趋势检测方法和基于逻辑模式的话题演化趋势检测方法进行了对比分析,具体讨论见下一节。
3.2 对比实验分析
首先,我们根据百度百科的相关话题内容对两种逻辑模式的话题演化趋势检测方法进行了对比实验分析,结果如表3所示。
观察表3的数据可以发现,基于逻辑模式的话题演化趋势检测结果具有一定的合理性,性能较基于时间模式的话题演化趋势检测方法有大幅提升。同时,将基于逻辑模式的话题演化序列与百度百科相关话题的描述进行对比分析,不难发现,该序列对于整个新闻话题的“现场工作指导”、“搜救”、“事故原因调查”、“赔偿”方面的内容都有所覆盖,但在“善后”的最终伤亡数据方面的话题相关性还有所欠缺。另外,由于抽取关键词以后,话题由权重较高的独立词组集合表示,事实数据没有具体呈现。因此,话题演化序列在展现方式上没有对伤亡人员数字、赔偿金额方面做详细阐述。然而,本文认为基于逻辑模式的话题演化趋势检测结果的重点是总结出新闻话题的发展阶段,对专题新闻进行整理,去除冗余报道,让用户了解到最直观简洁的而又最全面的新闻报道。因此该方法在实现自动化分析新闻话题演化趋势方面具有积极意义。 参考文献:
[2] 于满泉, 骆卫华, 许洪波, 等. 话题识别与跟踪中的层次化话题识别技术研究[J]. 计算机研究与发展, 2006, 43(3): 489-495.
[4] Li B, Li W, Li Q. Enhancing Topic Tracking with Temporal Information[C]//Proceedings of ACM SIGIR, Seattle, Washington, USA, 2006, 667-668.
[6] 洪宇,张宇,刘挺,李生. 话题检测与跟踪的评测及研究综述[J]. 中文信息学报,2007, 21(6): 71-87.