多通道多任务的网络舆情监测与分析系统
摘要:互联网已经发展成为当今世界上最大的信息库,中国网民人数超过2.98亿,规模全球第一。互联网是网民最新最快获取与发布信息的渠道,越来越多的重大事件最初都是通过互联网批露或诱发的,其动员力、煽动力和影响力不可小视,对社会公共安全形成重大威胁。
网络舆情研究是网络信息内容安全的重要研究内容,网络舆情突发事件的监测与分析具有重要的理论意义与实际应用价值。本系统是基于现有的舆情挖掘和分析理论,研究、实现的一个实际的舆情监控和分析系统,主要包括支持多通道、多任务的网络舆情信息获取、原始信
息的提取和索引的建立、舆情敏感词监控与敏感信息扩散跟踪三个功能。与传统的舆情分析系统相比较,本系统的创新点如下:从门户网站的新闻、个人博客和著名论坛等多个通道获取舆情信息;采用多任务技术提高网络舆情突发事件信息获取速度;采用目标可定制技术规
避海量信息处理的压力;舆情敏感信息扩散跟踪可以及时发现突发事件的爆发源头;基于图表的舆情分析能更好的为用户提供舆情分析功能;系统各个子系统采用数据耦合以及并行的系统架构能加快系统处理速度。
一:相关技术探究
网络舆情分析需要研究网络信息的内容获取、组织、分析与挖掘技术。本节仅对舆情发掘技术的研究现状进行描述。
(1)国内舆情研究
目前国内互联网舆情信息的采集与挖掘受到了越来越广泛的关注。中科院计算所提出COFFER系统(Consensus Observation andForecasting For intERnet)对互联网上舆论信息进行有效汇集、整理与分析,对网络舆论信息、舆论趋势走向和社会动态进行实时监测;北大方正技术研究院(2005)设计开发了方正智思舆情预警辅助决策支持系统:该系统由舆情规划、舆情收集、分析处理、舆情预警四个环节组成;2009 年 1 月 10 日国内首个网络舆情安全研究机构北京交通大学网络舆情安全研究中心正式挂牌成立。
(2)国际舆情研究
国际舆情分析起步较早,同样在近年来受到更多的重视,主要方式有两种:
Ø 文本数据:自动分析方式是通过搜集报纸、杂志、网上报道等文本信息,对其进行分析汇总后形成舆情分析结果。如英国科波拉公司推出了 “感情色彩”舆情分析软件,该软件可以在 1 秒内读取 10 篇新闻资料并判断文章的政治立场。
Ø Web数据自动分析方式:自动搜集和分析网络上的Web数据,形成舆情分析报告,如加州大学伯克利分校社会科学计算实验室的SDA(sda.berkeley.edu/)项目,目前已经推出3.5版本,该系统提供实时Web数据分析功能。
二.研究内容分析
此研究内容是基于现有的舆情挖掘和分析理论,研究、实现一个实际的舆情监控和分析系统。系统分为三个子系统,具体使用的技术分布图如图1所示。
如上图所示,本系统的信息获取子系统使用到的技术有多通道、多任务技术,并且提供可供详细配置抓取任务的接口。后台处理子系统采用HtmlParser提取网页和博客正文、采用DOM树以及模板的技术结构化提取BBS数据;在索引创建方面,使用了Lucene技术实现了增量式索引;在分类方面,使用Python对SVM的参数进行优化以提高分类的准确率。在分析和统计舆情信息方面,词典库的舆情分析方法,检索出每个敏感词的出现时间、通道、主机和次数,存入数据库,为详细的分析和话题追踪做准备;在UI子系统中,使用图表显示的方法进行舆情分析和统计,使用相关度和出现时间相结合的方法实现话题的追踪。
结合现有技术以及成果,本系统的主要的研究点集中在多通道、多任务技术,基于DOM树和模板的BBS结构化信息提取,分类和舆情数据的获取五个方面,下面进行一一说明。
(1)多通道技术:网络媒体多种多样的今天,单一的网页抓取不能准确、全面的进行舆情分析,所以本系统的信息获取子系统实现了多通道技术,同时抓取网站、博客和论坛信息,并使用不同技术进行处理。
(2)多任务技术:考虑到传统网页抓取的局限,我们考虑可以在容忍一定的网页缺失以及容忍一定的网页重复抓取的前提下,将不同用户下发的较大规模的抓取任务切分为若干较小规模的任务子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率。
(3)基于DOM树和模板的BBS结构化信息提取:由于不同的论坛站点在结构上有较大的不同,所以对不同的论坛类别读取不同的配置文件来达到系统的通用性。设计方案如下:系统读取论坛的主题页,按照html标记解析为DOM树,然后根据配置文件提取每个主题的标题、作者、发表时间、点击量等相对应帖子内容的URL等信息,具体信息类别和个数可能根据BBS站点的不同而改变。
(4)分类技术:仅使用SVM基本算法进行分类的准确率很低,所以使用Python获取参数进行优化,可以提高判断的准确率,同时为了加快运行速度。
(5)舆情数据的获取和源头追踪:舆情分析的指标难以确定,同时现有的自然语言处理的算法时间复杂度很高,所以我们提出使用人工和词典库相结合的舆情数据获取方案,在敏感词词库中添加基本的敏感词,进行舆情分析,同时可以通过人工管理敏感词,定制特定的信息,增加舆情分析的准确度。另外通过语料相关度以及出现时间生成散点图,实现敏感信息的源头追踪功能。
三:实验及结果分析
由于系统采用松耦合的框架,需要对系统的各个模块进行测试才能最终反映出系统的性能。系统实验设计涉及到网站划分的重复率实验、下载速度实验、论坛内容提取速度和准确性实验、分类实验、数据分析模块实验和并行处理效果实验。由于篇幅有限,仅对并行处理效果实验进行介绍。
信息获取子系统下载原始预料,后台分析子系统处理原始语料,为测定两子系统的并行处理效果,首先定义指标 R 为消费效率,为已处理的网页数/已下载的网页数。R 值越大,两子系统的并行控制做的越好。在并行控制中,信息获取子系统首先启动,后台处理子系统定时启动,根据消费和生产的速率可以设置消费者定期启动的时间IT(interval time),IT 在保证消费效率的同时,应该越长越好,因为频繁的调用会降低系统的下载速度。
使用校园网进行实验,把 IT 设置为 5、10、15、20 分钟时,得图 2。
从上图可以看出,虽然 IT 设置为 5 分钟时系统的消费效率 R 较高,但是频繁的调度降低了系统的下载速度。当 IT 为 20 分钟时,消费效率波动较大;当 IT 为 15 分钟时,系统能迅速达到并且维持系统的较高的消费效率,所以选用 15 分钟作为后台分析子系统的定期启动时间 IT。
四:总结分析
本系统的特点主要有以下几个方面。
(1)多通道:采用多通道的方式,采集舆情信息,保证