以《大秦帝国之崛起》为例,来谈大数据舆情分析和文本挖掘

行业资讯 2017-04-05 | 深圳铁匠UI设计

今年开年,因饰演白起的演员王学兵吸毒而拖延上映的《大秦帝国之崛起》(以下简称为“崛起”),终于在剧迷的千呼万唤中播出。

这部根据孙皓晖同名小说改编的电视剧是“大秦帝国”系列的第三部,首部《大秦帝国之裂变》,第二部《大秦帝国之纵横》分别于2009年、2013年播出,均获得不错的口碑,第三部《大秦帝国之崛起》因为上面的原因而补拍,直到今年年初才在央视开播。

本文将以该剧作为分析对象,来详细阐述在大数据时代数据分析会涉及到的三个“子课题”:

在接下来的分析中,笔者将结合分析工具(新浪微舆情、头条媒体实验室、Python、Gephi等)、分析思路(分析角度和分析流程)、业务知识(对该剧的了解和原著小说的认知),来谈谈一个完整的数据分析case如何完成,上面所涉及的3个子课题是本文分析的重点。下图是本文的主要内容和文章结构:

1“崛起”的全网舆情分析

1.1 全网关注情况

(1)“崛起”的全网关注度走势

因为该剧播出的时间段是2017-2-9~2017-3-6,故笔者选取了在该剧播出前后略有延展的时间区间,以便观察这段时间内关于该剧的全网信息量走势。

大秦帝国之崛起全网关注度走势图(2-1~3-13)

从全网总体的关注度来看,在电视剧播出前的关注量较少,而在电视剧播出期间的关注度(有关该剧的网络信息量)陡然上升,在播出的第一天(2017-2-9)关注度就出现了明显在上升。在该剧在播出结束后(2017-3-6),信息量逐渐减少,呈下降趋势。

(2)“崛起”的全网关注度来源

从各信息发布渠道的表现来看,该剧在微博(新浪微博和腾讯微博)上的信息量占据主导地位,“二次崛起”后的微博仍是娱乐影视的主阵地,是粉丝与主创团队进行互动的首选。下图是“崛起”的全网信息量来源构成。

除去微博的信息之后,则可以看到除微博(新浪微博和腾讯微博)以外哪些信息渠道关于该剧的讨论量较多。

由此可以看出,新浪博客、百度贴吧这样的泛娱乐化社区关于该剧的讨论也颇多,前者滥觞于明星入驻,是全国最主流,人气颇高的博客频道之一;而百度贴吧是全球最大的中文社区,是“粉丝文化”的催化剂。百度贴吧的迅速走红,是与“粉丝”及“粉丝文化”的流行紧密相关的,而在“粉丝文化”的发展过程中,百度贴吧也起到了重要作用。

1.2 全网关于“崛起”的关注点

(1)“崛起”的全网信息形成的关键词云

以下是全网关于“崛起”的文本信息的关键词提取,总计有60个,这些关键词来自于媒体报道,抑或用户UGC评论,从中我们可以发现网路上关于该剧的讨论集中在哪些关键点上。

从上图中可以看出,除了本剧的片名—“大秦帝国”以外,还有一些比较反映该剧特征的词汇,根据笔者对该剧的了解,特挑出其中主要的两类词汇:

(2) 与“崛起”相关的关联词分析

全网事件的热度信息关联词分析,它是通过系统自动运算找出事件核心词、并计算出与核心词同时出现关联度最高的高频词,也就是与核心词共现频率最高的词汇(关于“共现”的原理介绍,请看《如何用数据分析,搞定新媒体运营的定位和内容初始化?》的第三部分)。

假若读者看过该剧,从上面的关联词即可看出,该剧的“正剧”属性确凿无疑,是一部独具匠心的佳剧!

(3)与“崛起”相关的热门文章

这里的关于“热门”文章的定义主要是通过三个维度综合得出,即阅读量、转发量和评论量的综合评价。

上面有7篇个热门文章,它们在全网信息中的综合得分(阅读量、转发量和评论量)最高。从这几篇文章的标题可以看出,它们主要以预告即将播出的剧集的剧情为主,关于剧中主要人物的出场及情节预告居多,由此可见该剧的关注度较高。

1.3 关注网民的人群画像

以下数据来源于选自“头条媒体实验室”,基于今日头条7亿累计激活用户,7800万日活用户(截至2016年12月底)的海量行为数据及文章数据。鉴于今日头条庞大的用户数量,对其相关人群进行分析可以起到“管中窥豹”、“一叶知秋”的效用。如果该用户点击并阅读跟“大秦帝国之崛起”影视相关的文章,则判定该用户对该剧感兴趣。

(1) 关注网民的性别渗透率及年龄渗透率

此处,用渗透率(度)来表示用户对特定事件关注度的比例,而非绝对值。有可能出现的情况是:一个人口稀少的地区有一百个人的人关注了某事件,相比一个人口大省有一万人关注该话题,计算得到的渗透率(度)可能更高。

以下是这两类渗透率的计算公式:

从上图可以看出,“崛起”的男观众要多于女观众,当然这也在预料之中。年龄方面,青年群体(18-30)对该剧的热衷程度要比想象中的高,说明在当今这样一个盛行“宫斗撕逼玛丽苏”、“手撕鬼子裤腰藏雷”和“玄幻科幻架空历史”的戏说历史、全民娱乐时代,大家还是蛮希望有良心、有匠心、不浮躁的优秀剧集出现,并不是“劣币驱逐良币”或者是一味的迎合大众口味的“糙剧”。

(2)关注网民的地域分布

意料之外,情理之中,这部主创团队(原著小说作者、导演、制片人)全部是“秦人”(陕西人)的影视剧,陕西地区的受众关注度(阅读量、转发量、评论量等)最高。

“大秦帝国”系列电视剧,展现了一幅波澜壮阔的图景:

在一个热血的时代,一个积贫积弱的偏蛮小国由几代秦国人奋发图强,秉承着“赳赳老秦,共赴国难,血流不干,誓不休战”的大无畏精神,历经磨难终于实现大国梦。

出于对祖先的崇敬和身为秦人后裔的自豪,陕西地区的网民对于该剧的关注度高不足为奇。

(3) 关注网民的兴趣图谱

该部分度量了关注“崛起”的受众的整体兴趣情况,同样是根据他们阅读文章的类别(如“科技”、“历史”等)来进行判断的,以此为指标对各兴趣类别在关注该话题的人群中从高到低进行排序。

“用户兴趣”的计算公式:

某兴趣类别的用户对关键词的关注度/某兴趣类别用户总关注度

在这里,兴趣图谱分为3层,越往下分则越细致。结合上面的年龄、性别和地域因素,从这些兴趣图谱中,我们能得到关于受众人群更为深层的洞察。

通过上面对受众兴趣图谱层层递进的“钻取”,我们可以看到,他们主要的兴趣有“国际足球”、“中国古代史”、“电影”、“中国足球”、“NBA”、“购房”和“法律”。结合先前的2个人群画像维度,可以判断出喜爱《大秦帝国之崛起》的人群是一些酷爱历史(尤其是中国古代史)、和运动,且具有一定经济实力的中青年群体,他们具有较高的文化素养。

2“崛起”的热门微博传播分析

在前面的全网舆情分析中笔者有提到,该剧(其实大部分影视剧皆是如此)在微博上的声量极高,所以笔者在这一部分着重描述下它在微博上的声量表现。

其实,造成微博上声量较大的原因,绝大部分是因为用户参与转发或是评论了某条微博,每一条转发和评论都被视为一个用户UGC。而微博文本每天13万的日发博量和短视频每天的32万日发布数量,这两方面每天形成的内容体量是相当庞大的。(新浪微博2016年年终数据)

又因为,微博上“注意力资源”分配极不均匀,少数大V博主拥有庞大的粉丝资源,他们发布的内容往往能引起微博上广大民众的讨论,能造成极大的影响力。

鉴于此,笔者选择了微博上一个关于影视娱乐的自媒体大v—“low君热剧”,该账号曾传播过一条跟“崛起”相关的微博,用户互动较为活跃,权当“解剖麻雀”之用。

笔者选取了一条带视频的微博,下面的播放量、转发量、评论量和点赞量都较为可观。可以作为微博传播分析的一个例子。

以下关于该条微博的传播分析,数据来源及相关可视化呈现皆来自于新浪微舆情的微博传播分析(微分析)功能模块。

2.1 传播概况

截至分析时间03-18 11:50,@low君热剧 的微博共收获转发数13,393次(其中有效转发10,576次)、 评论数2,209条,点赞数29,646个。

此外,该条微博的覆盖人次为20,260,770,包括原创者(也就是“low君热剧”)和转发者的粉丝数的叠加,当然也免不了重复计算,但整体的传播效果是惊人的。注意,这是没有排除水军的数据。

内容敏感度为0.27%,也就是说,关于该条微博的用户评论中仅有0.27%的评论是呈负面的,这个量很小。

值得注意的是,原创者“low君热剧”自身是此条微博的关键传播用户,这个看起来有点费解,笔者会在下面有详述。

2.2 转发评论趋势

一条微博的传播是有生命周期的。能够十分清晰的观察到该微博转发、评论的发展趋势,微博的互动及散播活跃与否,以及处于生命周期的哪个阶段(引发期、酝酿期、发生期、发展期、高潮期、处理期、平息期和反馈期),对于及时、准确研判事件及舆情走向起到至关重要的作用。

从上图可以看出,该微博于03-17 12:05发布后,于03-17 12:30、03-17 23:30达到转发、评论高峰,转发峰值516条、评论峰值34条,此后微博传播速度逐渐降低。

同时,意见领袖也是在该条微博的传播高峰期进行活跃的,图中深黄色的圆圈即代表它们引起的转发量。

2.3 传播层级

转发层级可以看出某个微博传播渗透力的强弱,层级越多,代表话题的渗透性和传播性越强,微博粉丝的参与度也就越高。

本条微博的传播层级为5级,在传播深度上一般,渗透力不足,说明本话题以及该剧属于小众圈子。

值得注意的是,在剔除掉水军及僵尸粉之类的用户后,该条微博的覆盖人次变更为18,070,952,跟初始覆盖人次相差了100多万的人次数。

在这里,原创者“low君热剧”有重复出现多次,这是为什么呢?请接着往下看。

2.4 传播路径

微博传播路径分析是微博传播分析中的重中之重,分析微博传播路径图能发现其中的关键传播枢纽节点(意见领袖)和识别传播质量。

下图是传播路径图中常见的三种传播节点类型。

联系Malcolm Gladwell在《引爆点”(The Tipping Point)》中提出的观点,原创节点、传播节点和长尾节点非常接近其表述的、在某类流行事件中的三种主要角色:

稍有差异的是,处在长尾节点位置的粉丝,多半是被动的接收者,传播层级到他们这里基本戛然而止,但如果长期接收某一类事物信息,他们也会变成该事物的忠实拥簇,会转变为联系人或者内行。

从微博传播分析系统上获取传播节点相关的数据之后,笔者利用复杂网络分析工具Gephi,基于Fruchterman Reingold的力导向算法和Modularity Class的谱聚类算法,得到了如下能反映该条微博传播路径及传播社群关系的微博传播路径图。(Gephi详细使用方法请参看《万字干货|10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”》)

从上图可以看出,“low君热剧”在该条微博的传播过程中出现了很多次,而且其中呈明黄色的枢纽传播节点也是本尊。那究竟它们是同一个账号转发了很多次呢,还是同名但不同账号各自发布了一条信息呢?我们接着往下看。

调出关于传播节点的基础数据,得到下面关于本条微博TOP转发20的列表。

从上表可以看出,在转发数TOP20中,“low君热剧”包揽了状元、榜眼、探花和传胪这前四名。第一列的的“发布微博ID”代表某个账号将本条微博重新转发,形成一条新的微博(ID)。因而,“low君热剧”在本条微博的传播中,总共发布了4次,将“联系人”“内行”和“推销员”的角色都过了一遍,而且二次转发效果上佳,不得不说,只有这样粉丝过百万且活跃度极高的微博大v才能这么玩,而且玩的不亦乐乎!

2.5 互动粉丝画像分析

笔者把传播者分为两类,即转发者和评论者,将二者分别进行分析。

一般来说,如果没有水军操作的话,这两类群体的属性应该基本一致。评论者的互动意愿更强,且机器操作的难度较大。

(1)转发者和评论者的性别分析

从上图可以看出,转发者和评论者的性别占比趋近一致,都是女性压倒性的超过男性。貌似和该剧面向的群体不太一样,不过,我们需要知道的是,“low君热剧”平时发布的关于影视剧的微博之类繁复,像《大秦帝国之崛起》这种风格的影视剧不是主流,平时它的画风是这样的:

这样就不难理解,为何历史正剧互动的女粉丝较多,因为这个大v平时吸聚的粉丝多半是女性群体~

(2)转发者和评论者的地域分布

从上图看来,转发者和评论者的地域分布差异较大,转发者集中在东北黑龙江,而评论者主要集中在南方。联系前面的传播路径分析,该条微博人为干预较为突出。

(3)转发者和评论者的兴趣标签

从上图可以看出,该条转发群体和评论群体的兴趣图谱几近一致—都是热爱生活、喜好休闲娱乐的乐活一族。

综合上述关于微博传播分析的5个维度,本条微博的传播有轻微人为干预,不是大面积的商业推动行为,微博传播情况正常。

3 原著相关的文本分析

在本部分,笔者选取了《大秦帝国之崛起》相关的原著小说进行分析,即《大秦帝国之金戈铁马》。

与影视剧不同的是,原著小说交代了秦昭襄王嬴稷上位前的一段经过,比如秦武王讨伐东周并举鼎而亡,以及秦宣太后和嬴稷质于燕,等等。