当你看了一部电影,但是对豆瓣的评分并不认可,知道这是为什么吗?
不知道大家有没有这样的经历 —— 看了一部电影,但对豆瓣的评分并不认可。
比如,之前看西游伏妖篇,我就很疑惑,为什么分数这么低?毕竟,周星驰是我很喜欢的导演。
而且,评论区也出现了截然相反的评价:
再比如最近的神奇女侠 Wonder Woman,虽然分数不错,但我并不觉得很好看。
此外,一直以来也有“爱乐之城/摔跤吧爸爸评分偏高了吗?”等类似的问题。所以,会想问 ——为什么有的电影分数高/低,但是我们并不认同?是不是豆瓣电影的分数有问题?
之前,从国内外评价差异(和IMDB比较)的角度分析过,比如赤壁/让子弹飞,国内外的评价并不一致,但还有没有别的原因?
1. 数据概况选取2008-2017, 国内公映的电影。限制豆瓣评分人数在2W以上,一方面讨论大家较为熟悉、主流的电影,另一方面也尽量减少水军等的影响。总共815部电影,评分分布如图:
包括了很多大家熟悉的电影:
2. 评分的差异 2.1 西游 vs. 杜拉拉仔细观察西游的评分,会发现和相同评分的电影(杜拉拉升职记)的分布差别很大。
两者评分相同,评价人数也很多(20W, 17W),但5星和1星的比例差别很大[1]。
什么意思呢?
杜拉拉升职记:大家都觉得很一般,所以评分集中在了3星
西游伏妖篇:同时有不少人觉得不错/较差,在1星和5星有不少的分布。
也就是说,尽管两者(平均)分数相同,但是背后的看法非常不同,评分差异很大,这也正好对应了上面,西游出现两种截然相反的热评的情况。
2.2 怎么衡量评分差异评分分布的差异,可以用方差来衡量,计算方法如下:
也就是计算 评分偏离平均分的程度 [2]。下文使用标准差(STD),方差开方即可。可以做出标准差(STD) – 豆瓣评分(Rating )散点分布图[3]。为了便于比较,做标准差97%范围线。
可以看到西游和杜拉拉升职记的STD差别确实很大,西游的标准差排在前3% ,争议性是巨大的,而杜拉拉则小很多。 另外,还发现散点图的有两个特点
收敛:分数越高(比如从6分到10分),STD分布的范围越来越窄,值越来越小
不对称: 理论上来说,这张图应该是关于6分对称的,因为颠倒一下评星的顺序(e.g. 5星 -> 1星, 4星 -> 2星),就能得到对称的STD值,但实际并不对称。
对于收敛,可以从平均分怎么计算出来的角度理解:平均分越高,占高分的比例越大,因此评分差异较小。至于不对称,后面再说。
2.3 典型电影这里,可以看到很多典型评价差异很大的电影,比如刺客聂隐娘,一步之遥 等等都在这张图的上方,STD很高。
可以拿他们和STD较低的电影比较:
这里可以问一个问题 —— 这些电影的分数相同,但同样好看/不好看吗?
比如,刺客聂隐娘和我11的分数一样,但他们一样好看吗?
显然不是。
和前面的比较类似,刺客聂隐娘虽然评分较高,但其5星/1星和我11差别很大。为什么呢?大家可能早有耳闻,看评论,也能看到。
可能的原因,是刺客聂隐娘画面极具美感,但另一方面,剧情却让人看不懂。所以评分上出现了较大的分歧。一步之遥也是类似,算是比较有名的例子了。
而爸爸去哪儿,也能从评论中看到一些端倪:
可能的原因是,一方面是娱乐性优秀,带着小孩看电影的家长观众们觉得很好,另一方面,有人觉得这不是电影,纯属圈钱。