这里是普通文章模块栏目内容页
向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

2019年5月1日,美剧《生活大爆炸》最后一集正式宣布杀青,于北京时间5月17日早8点播出,时长达一个小时。这部陪伴观众成长了12年的美剧,已与全球观众告别。

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

如果说《老友记》是上一代的美剧青春,那《生活大爆炸》无疑是今天90后这一代人精神版图中不可或缺的部分。

12年对全球观众意味着多久?中学6年,大学4年,毕业2年,从懵懂到成熟,整个青春时代……

这12年,剧中角色遇到了各自的真爱,经历了各自的得失,我们也毕业、告别、成家、生子。

剧中人物各具特色,在他们身上,我们或多或少能够看到自己的影子。作者作为多年美剧《生活大爆炸》的粉丝,抛开情感不谈,在看完生活大爆炸最后一集,开始纳闷,到底谁是《生活大爆炸》的主角?

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

是虽然高智商天才但是个偏执狂谢尔顿?还是感情丰富却优柔寡断的莱纳德?又或者是一向被称为“妈妈的好孩子”却好色的霍华德?还是表面害羞客观,内心花花公子的拉杰什?

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

一千个读者心中有一千个哈姆雷特,每个人对于谁是主角都有不同的答案,但是作者利用数据分析出,到底谁是《生活大爆炸》中的C位。

为了确定这个问题的答案,作者从GitHub中下载了《生活大爆炸》九季的剧情,并且用不同的参数来找出谁是最突出的。

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

整个分析是使用Python完成的,数据集本身已经被处理的很好,每个场景以及每个人的对白都已经被提取了出来,并以json文件存储。作者将文件转换成结构数据的过程中省了不少力气。

数据集地址:

https://github.com/skashyap7/TBBTCorpus

数据分析部分代码地址:

https://github.com/wqw547243068/Python-learning/blob/master/courses/chapter_3/big_bang_theory.ipynb?tdsourcetag=s_pcqq_aiomsg

谢耳朵助攻女友跻身主角

首先,看看每个人的台词。因为无法得到每个角色在屏幕中实际出现的时间,所以每个人的台词量可以作为一个合理的估算标准,所以究竟是哪位的台词最多呢。

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

谢尔顿十多万的台词数目排在第一位,而莱纳德虽然排在了第二位,但是和谢尔顿相差一倍。卡蕾·措科饰演的Penny作为唯一的女主角当仁不让的超过了霍华德和拉杰什排在了第三位。Amy出现在电视剧中第三季最后一集,虽然只是霍华德通过婚介网偷偷帮谢尔顿找的女朋友,但是作为第四季以及之后的班底人物,妥妥的跻身女主角行列。

演员们说了这么多台词,那么什么是他们口中最经常出现的台词呢?

经过分析,选出了出现频率为top30的词汇,去掉The、to、a、of等停用词,发现几“I”和“you”在每位主角的台词中出现频率最高,这也符合本剧的设置,因为大多数笑点包袱是通过对话抖出来的。

除此之外,莱纳德喜欢说Know、Penny喜欢说oh~谢尔顿喜欢也喜欢说Know,值得一提的是,在9季电视剧中,他叫了莱纳德657次。作为谢尔顿的女友,Amy当然叫谢尔顿的次数最多啦~足足有266次。另外,霍华德和拉杰什喊的台词最多也是know。

有了“I”和“you”出现的次数,完全可以假定当“I”出现的时候,角色必然会出现在荧幕上,这在一定程度上能够反映导演给的镜头数量~

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

数据结果非常有趣,谢尔顿仍然是冠军,其他排名和台词数量保持一致,值得注意的是,莱纳德和Penny镜头相差无几,霍华德和拉杰什的镜头数量相差不多,而作为后登场的Amy显然不如她的几位“前辈”。

#p#分页标题#e#

那么,考虑全部的台词,各位主角的名字出现了多少次呢?显然,这也是非常能够体现各位主角地位的地方。

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

显然,分析结果和上面的稍微 不一样,拉杰什稍逊Amy一筹,毕竟作为谢尔顿的女友,台词之王给予的助攻是不可忽略的。

谢尔顿多榜第一霸占C位

来,快速回顾一下。

谢尔顿的台词数量最多,超过第二名将近一倍。单词数量的情况与台词量类似。

谢尔顿在银幕上的出场次数最多,莱纳德和Penny镜头相差无几,霍华德和拉杰什的镜头数量相差不多。

谢尔顿这个名字在剧情中也是出现最多的,有趣的是。他叫了莱纳德的名字657次。

综合考虑,谢尔顿是生活大爆炸中当之无愧的主角,无论是台词数目,还是镜头以及名字出现的次数都是冠军,作为后出场的Amy,导演在后几季的时候也给与了充分的戏份。

大家都是公寓控

做《生活大爆炸》的数据分析真的很有趣,除了分析谁是主角外,还发现了一些你可能会感兴趣的其他事实。

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

整个电视剧发生的场景非常多,对白发生最多的地方当属他们的公寓,其次是餐厅,对白发生在房间的比例也达到了4.45%。

那么,各位主角最喜欢在哪个场景发表看法呢?

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

从上面的热力图可以看出,大家都是公寓控。而谢尔顿先生无论是在床上,房间、餐厅、汽车都妥妥的比其他演员的台词要多。另外,可以看出整体的台词分布,基本符合场景安排,没有哪个角色钟爱哪个场景。

公寓是对白发生最多的地方,我们来瞧瞧有没有属于角色的专属词汇!

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

在公寓,谢耳朵爱说oh以及my

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

莱纳德:What?

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

penny:oh~

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

霍华德:my、do、me

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

Raj:my、me、was

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

Amy:谢耳朵!

#p#分页标题#e#

电影中的出场人物除了这几位主角之外,其他角色也有比较多的戏份,粗略统计一下,发现2009年在第三季的客串角色Bernadette台词占比也有接近5% 。作为剧中三号人物霍华德的女友,台词数量虽然比不上一号人物的女朋友,但是也相差确实不多。

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

作为艺术学校出身,其实在刚开始出场时也是看起来怂一点的Stuart也有不少戏份,但总归不是主角,台词占比只有1.23%。

最后,用开头那张合照做了整体台词的词云可视化,算是对这部陪伴了我们12年的美剧的一个告别吧~

向《生活大爆炸》告别,通过数据分析了几十万条台词,我们发现……

作者:张弛、王奇文、蒋宝尚

本文转自: 大数据文摘

更多阅读:

CBNData:为什么我们更爱“神奇女侠”?

WTW:2017全球福利现状调查报告(附下载)

调查显示1/4人患有“低电量焦虑症”

途虎养车:2018中国汽车用户线上养护行为报告

远卓:中国日化消费品行业洞察(附下载)

财新传媒&BBD:2018年5月伊利消费升级指数报告(附下载)

世界各城市60平米房屋成本

在中国,只抓一个权健是不够的

CBNData:2019天猫垂钓消费趋势白皮书

淘宝:懒人消费数据

2018年十大科技丑闻

Ipsos&百度:2018中国美妆行业白皮书

联通:2019年春节大数据报告

群邑智库:2018年1-7月热门网综回顾

00后&05后报告:超新生代如何规划自己未来十年

收藏
0
有帮助
0
没帮助
0