聪明文档网

舆情分析

随着互联网特别是社会媒体的发展，我们所面临的问题不再是可获取的信息量稀少的问题，从网络新闻、评论、BBS、聊天室、博客、微博、微信等来源中我们可以很容易的得到海量数据，但是这些不经过处理的海量数据只是一堆没有意义的符号，只有通过分析提炼，信息才能更好的真正为我们所用。舆情分析就是根据特定问题的需要，对针对这个问题的舆情进行深层次的思维加工和分析研究，得到相关结论的过程。由于互联网上的各类文本内容来源众多，观点多样等特点，舆情分析分析作为一个研究热点受到越来越多的关注，学术界和企业界近年来也逐渐开展了这方面的研究。舆情分析系统所涉及的主要研究内容包括：大规模开放领域数据获取与预处理、情感倾向分析、话题检测与跟踪、用户影响力分析、“人”虚实映射等。

word/media/image1.tiff

图：舆情分析系统的基础架构

针对互联网标准数据交换协议（如：HTML）的数据获取工作，是舆情分析等系统的基础数据来源，随着互联网特别是搜索引擎的发展受到越来越多的关注。近些年来在国外已经有很多研究和产品，主要开源系统包含： Labin，Nutch、Heritrix、Scrapy等。这些系统包含了分布式爬取策略、HTML代码分析清洗、爬取层次控制等功能。通过给定的种子网站，对页面中的链接进行分析，在此基础上扩展爬其他页面。这些工具虽然采用了分布式爬取车存储架构，但是一般仅能完成一次性爬取工作，缺乏数据源的更新频率、页面核心内容提取、多次爬取更新等复杂功能。同时，这些系统也不能对类似Twitter等在内的社会媒体数据进行很好的爬取和处理。针对移动互联网应用程序的爬取工作，应用一般采用私有数据交换协议，目前还没有很好的工作针对移动应用的数据进行爬取。Google提出了开源数据交换格式Protocol Buffers，希望其他应用遵循此协议进行，但是目前采用该协议的移动应用仅几百个。如何针对大规模开放领域数据获取与预处理是舆情分析工作的基础。

情感倾向分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究、海量信息的整体倾向性预测四个研究层次：1）对词语的情感倾向研究是文本情感倾向分析的前提。具有情感倾向的词语以名词、动词、形容词和副词为主，也包括人名、机构名、产品名、事件名等命名实体。其中，除部分词语的褒贬性（或称为极性，通常分为褒义、贬义和中性三种）可以通过查词典的方式得到之外，其余词语的极性都无法直接获得。而词语的情感倾向除了极性之外，还包括倾向性的强烈程度；2）而句子情感倾向性分析的处理对象则是在特定上下文中出现的语句。其任务就是对句子中的各种主观性信息进行分析和提取，包括对句子情感倾向的判断，以及从中提取出与情感倾向性论述相关联的各个要素，包括情感倾向性论述的持有者、评价对象、倾向极性、强度，甚至是论述本身的重要性等；3）篇章级情感倾向性分析，就是要从整体上判断某个文本的情感倾向性，即褒贬态度。例如，将电影评论的数据按照倾向性分成两类；4）针对海量信息的整体倾向性预测主要任务是：对从不同信息源抽取出的、针对某个话题的情感倾向性信息进行集成和分析，进而挖掘出态度的特点和走势。

话题检测与跟踪（Topic Detection and Tracking，简称 TDT）评测，是由美国国防高级研究计划局（DARPA）资助，美国国家标准技术局（NIST）主持的一项重要的自然语言处理国际评测。TDT面向多语言文本和语音形式的新闻报道，主要评测报道边界自动识别、突发性新闻话题检测、话题进展跟踪以及跨语言检测与跟踪等相关任务。传统的话题检测与跟踪大多是基于内容的方法，社会媒体中不仅包含内容信息，还包含社交网络和用户行为等要素。社会媒体是以人为中心进行信息的组织，话题的形成与传播包含由转发、评论、@关系（即“对他/她说”功能）等显式用户行为构成。其次，同一个话题或者事件可能会在不相交的多个用户社区中展开讨论，这种隐式的关联对于构建完整的传播网络具有十分重要的作用。此外，由于社会媒体所讨论话题可能源自新闻媒体的热点报道，社会媒体所形成的热门话题也会引起新闻媒体的报道和关注，社会媒体话题与传统新闻报道之间存在的这种非常紧密的联系对于话题分析也是必不可少的。

用户影响力分析是社会中一个人的社会影响力包括静态和动态两方面的因素。静态方面是指个人在社会网络结构中是否处于核心位置；动态方面包括其发布信息的频度和信息被传播的广度。影响力最大化问题（influence maximization）是社会影响力分析中涉及到的重要问题。该问题的目标是要通过找到社会网络中若干“有影响力的”用户使得最终影响可以在整个网络中最大化。关于定量描述用户之间存在的影响力的方

法、影响力强度衡量的方法以及根据社会网络和行为日志建立用户的影响力模型等。近年来，很多工作也开始关注社会影响力和社区分析之间的关系。一个人的影响力是有范围的，这个范围就是社区。在某一个社区内影响力很大的人，换了一个社区可能就毫无影响力

通过社会网络我们可以构建虚拟社会中的“人”，并可以抽取包括个人信息、社会联系乃至发表的网络言论。在此基础上，“人”虚实映射分析的目标是识别虚拟网络中的‘人物’的真实身份，也就是将虚拟网络中的实体与真实的自然人构建映射关系，该映射需要综合考虑虚拟网络实体之间的关系以及真实自然人之间的关系。虚实映射基于比对真实和虚拟两个图谱的拓扑结构子图的相似性以及节点基因的相似性来实现针对虚拟‘人物’的真实身份追踪和定位。虚拟网络中的‘人物’往往可能存在虚假、不实或者冲突的特征，但是，无论是真实还是虚拟网络，‘人物’之间的关系联结很难伪造，因此，可以在一定程度上利用挖掘算法，构建虚拟社会和真实社会之间的关联关系。