推荐阅读:摘要:目前,网络已成反映社会舆情的重要载体。而随着网络舆情的快速发展,其对社会的影响是巨大的,已受到各个部门的重点关注。现阶段,网络舆情的监控系统的分析一般是通过人工方式实现。因为需要实时跟踪与监控的网站数据量比较多,而且模式复杂,人工方
摘要:目前,网络已成反映社会舆情的重要载体。而随着网络舆情的快速发展,其对社会的影响是巨大的,已受到各个部门的重点关注。现阶段,网络舆情的监控系统的分析一般是通过人工方式实现。因为需要实时跟踪与监控的网站数据量比较多,而且模式复杂,人工方式已经难以满足相关要求。因此,应该加强网络舆情监控系统主题网络爬虫功能研究,从而有效满足面向特定范围内的信息采集和监测有关要求。
关键词:网络舆情监控系统;主题网络爬虫;信息收集
网络舆情主要是利用互联网传播具备的公众性,针对实际生活中一些热点与焦点问题所具备的影响力和倾向性言论以及观点的等,通过社会舆论所表达的一个方式。因为网络舆情拥有传播速度快和影响力大等特点,所以应该创建自动化与现代化网络舆情的监控系统,从而确保网络舆情相关信息的及时、有效采集和分析以及监控等。另外,网络舆情的监控系统一般包含信息采集模块和预处理模块以及分析模块等,其中采集模块作为舆情分析和处理工作的前提,该核心内容就是利用一个或是多个并行采集设备从互联网中有效收集相关网页数据,而采集设备一般称之为网络爬虫或是网络蜘蛛。本文主要对网络爬虫与主题网络爬虫相关处理流程进行了分析,从而针对主题网络爬虫的相应设计模块结构完成优化,实现更为简单与有效的主体网络舆情相关信息采集系统的合理设计,并为网络舆情的采集与分析提供帮助。
1 网络舆情监控系统
现阶段,国内对于舆情并未形成相对统一的认识,有关教授针对舆情进行了定义,也就是舆情为舆论状况的简称,主要是指在一定社会空间中,人们对于社会事件与社会管理人员产生与持有的社会政治态度。而网络舆情可以有效、直接反映出社会舆情,其还是实现网上相关信息交流的主体,同时人们对于部分突发事件与社会所持有的态度以及发表的言论可能会在一定的时间内对社会造成严重影响,因此一定要及时采用有效对策,针对舆情实施严格监控,从而有效控制与引导事态良性发展。另外,舆情监控一般是利用网页自动选择舆情信息,然后利用文本挖掘等相关技术针对舆情信息完成有效分析与处理,并把处理过户获取的热点信息进行上报与跟踪,科学、合理的舆情监控可以实现舆情信息从被动防堵过度至主动疏导。
2 普通网络爬虫与主题网络爬虫分析
网络爬虫作为网络舆情监控系统中采集系统的核心与基础,其直接影响着网络舆情数据采集覆盖率与查准率等。依据采集内容和目标的差异,网络爬虫一般分成普通网络爬虫与主题网络爬虫。其中普通网络爬虫主要目标就是大量采集信息页面,在采集的过程中仅仅注重网页采集的数量以及质量,从不深入考虑网页采集相关顺序与被采集页面有关主题。近些年来,网络信息的不断增长,普通网络爬虫面临着严峻的网页规模和更新速度以及个性化等诸多方面的挑战。为了能够有效改进网络爬虫的工作效率,使其可以满足相关人群深层次和面向特定领域的信息要求,一定要充分应用主体网络爬虫。该目标是在大量采集和主体有关的网页基础上,在进行采集的过程中要时刻关注互联网页内容和主体相关度。
1)普通网络爬虫分析
普通网络爬虫是利用网页间存在的超链接关系有效采集网页,需要创建一个初始化的URL集合,其为一个有序的等待抽取的URL队列,然后从此队列中某一个URL开始,有效提取相应页面中的HTML内容,同时分析与提取在此页面中其他相关的全部超链接,把其分别加入至URL队列里,对之前的URL队列完成更新,然后依据图表中广度或是深度优先选择策略有效访问下一个URL连接,这样依次循环,不断重复上述过程,一直到全部网页都被提取完成或是依据Web爬取方案停止采集位置,该爬取流程图如图1所示。
2)主题网络爬虫分析
主题网络爬虫主要指有选择性的收集和目标主题存在关联的网页。应该针对主题完成向量表示,依据内容相关度有效计算出相应网页内容与主题的相关度,同时针对链接完成相关度评价,从而决定选择哪种网页。在进行采集时并不需求采集全部的网页,对此主题网络爬虫所需要保存的页面相对较少,能够在很大程度上节约相关硬件与网络资源,并且可以有效满足特定人们对查找特定主题的相关需求。另外,主题爬虫主要是在普通网络爬虫基础上实现相关功能的扩充,主要设置了针对URL与网页主题相关度的评价,主题网络爬虫工作流程如图2所示。
3 主题网络爬虫设计研究
主题网络爬虫只针对与主题有关的网页完成采集,并不是覆盖全部网页。应该先对主题完成向量表示,依据内容的相关度有效计算出所要访问的页面内容以及主题相关度,同时针对链接完成预测和分析,有效识别相关链接是否与主题有关,最后决定选择相应链接所指向的网页,同时设置提取链接的合理顺序。另外,主题网络爬虫整体运行流程比较复杂,首先要启动爬虫程序,然后输出主题和种子站点,完成主题的向量表示。其次获取网页的HTMT正文内容,并把网页输入至页面相关度的分析模块,有效计算出此页面和主题的相关度,并且把所提取到的相关页面链接和链接锚文本等多种有关信息输入至链接的评价模块中,通过测算相关度超过阀值的链接输入至链接的优先权队列中。然后依据链接选取对策,选取下一个进行访问的链接输入至爬行模块。最后,反复重复上述步骤,一直到满足相关结束条件为止。主题网络爬虫更为关注发现用户需求的信息资源,怎样更多获取和主题存在密切关系的网页,怎样在一定程度上提升采集效率都是主题网络爬虫系统设计的重要内容。另外,主题网络爬虫系统的设计应该以普通爬虫系统作为基础,然后在此基础上进行部分功能的扩充,依据主体网络爬虫相关功能需求与运行流程,设计的系统如图3所示。
4 主题网络爬虫关键技术分析
主题爬虫比较重视网页相关度,依据相应的网页分析算法有效过滤和主题并无关联的网页,并且保留和主题有关的网页和链接,从而更多的采集和主题有关的网页内容。对此,就应该科学、有效设计主题网络爬虫算法。 主题向量表示和关键词权值计算方式。主题一般利用一组关键词进行表示,同时主题关键词通常要在种子文档中获取。而种子文档主要由用户所指定的样例文档和种子页面相应文章以及种子页面实现相邻近区域扩展之后产生的文章等构成。另外,种子文档的产生过程比较复杂,增加种子页面所指向的页面,指向种子页面的页面实现种子页面的有效扩展,在扩展至一定条件过后停止,然后将用户输入至样例文档和种子页面文档以及扩展种子文档构成一个种子文档集,最后利用统计词频与逆文档频率(TF-IDF)手段针对种子文档集完成词频统计,同时还要实现权值计算,将权值最高的n个值构成主题关键词集,有效表示所给定的相应任务主题。
5 结束语
近些年来,主题爬虫技术在信息采集与数据挖掘方面的关键性日益突出,而且主题网络爬虫的研究和分析已经受到人们的高度重视。通过分析与研究普通网络爬虫与主题网络爬虫技术的特点以及处理流程,在满足相关功能要求的前提下,重点分析与研究了主题网络爬虫相关功能模块的设计以及所有模块的具备的作用。另外,还针对主题网络爬虫的相关度计算和主题向量表示进行了分析。但是对于怎样发现更多网页,怎样获取相关度更高的有关页面和提升主题网络爬虫工作效率,依然需要深入研究。
参考文献:
[2] 魏晶晶,杨定达,廖祥文.基于网页内容相似度改进算法的主题网络爬虫[J].计算机与现代化,2011(9):1-4.