使用R语言分析告示牌百强单曲榜上的歌曲特征.doc

上传人:白大夫 文档编号:3382075 上传时间:2019-08-20 格式:DOC 页数:5 大小:22KB
返回 下载 相关 举报
使用R语言分析告示牌百强单曲榜上的歌曲特征.doc_第1页
第1页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《使用R语言分析告示牌百强单曲榜上的歌曲特征.doc》由会员分享,可在线阅读,更多相关《使用R语言分析告示牌百强单曲榜上的歌曲特征.doc(5页珍藏版)》请在三一文库上搜索。

1、使用R语言分析告示牌百强单曲榜上的歌曲特征编者按:数据科学家Rosebud Anwuri使用R语言分析了告示牌百强单曲榜上的歌曲特征,以揭示过去60年来流行音乐的演变。你从“年长者”那里最常听到的关于现代流行乐的看法是什么?一般来说是这个:“你们的音乐太吵了,缺乏内容。”他们喜欢谈论“古早”年代,有意义的歌曲,有灵魂的歌手,催人泪下的低音吉他。这两者差别很大。然而,需要进行一些数据分析才能得出一般结论。作为千禧一代和数据科学家,我对此很感兴趣。“伟大”的音乐的标准真改变了那么多?是声音、歌词还是“消息”改变了?如果它们改变了,它们具体是如何改变的?我将使用告示牌百强单曲榜(Billboards

2、 Hot 100)和Spotify的API作为数据来源,仔细查看流行音乐在过去六十年来的变化,并找出现在的流行音乐和以前的不同之处。我的方法在本文中,我所说的“伟大音乐”指进入告示牌百强单曲榜的音乐。我在GitHub上找到了相应的数据集kevinschaich/billboard-top-100-lyrics。这一数据集中包含许多有趣的特征,例如情感(Sentiment)、迷雾指数(估计在第一遍阅读时理解文本所需的正式教育年限)、单词数、重复单词/词组数。 此外,Spotify的API提供了一个有趣的接口getaudiofeatures,其中提供了很多音乐特征,例如响度、乐器性(使用乐器的程度

3、)、活力、现场性(现场是否有观众)、语音性、时长等。加上这些,我收集的1950年到2015年的告示牌百强单曲,总共有30项特征。这些特征的描述可以在GitHub仓库的README文件和Spotify的API文档中查到,我也会在后文解释其中的部分特征。我最初决定在这个项目中使用Python,某种程度上说,我确实用了Python。在我数据收集的第一次迭代的时候,我使用了Python的pandas和spotipy这两个库。然而,随着项目的进行,我重新审视了我所用的方法,找到了一个更有趣的数据集。为此,我转而使用R来完成这一项目,主要是因为R提供的tidyr:gather()函数(用pandas合并数

4、据真是让我心烦意乱)。我用R和Python写的代码,以及我最终整理的数据集,均可通过GitHub访问:RosebudAnwuri/TheArtandScienceofData/The Making of Great Music 和我的其他项目相比,我在收集数据方面花的时间很少,这是因为,和我的其他项目不同,有人花时间准备了可以直接使用的数据集。我之所以分享整理的数据集,同样也是希望能为其他人提供方便。让我们开始吧!1. 六十年来的主要变化通过聚类算法,我们可以根据歌曲的特征找到音乐家及其作品的相似性/聚类。我们找到了两个艺术家聚类弦乐爱好者(The String Lovers)和诗论家(The

5、 Poetics)。这两个名称的由来是影响聚类的最重要因素:乐器性(Instrumentalness)和语音性(Speechiness)。弦乐爱好者的乐器性数值高,而语音性数值低。这意味着,这一阶段的艺术家相比语言,更倾向于乐器。诗论家正好与此相反。大部分弦乐爱好者出现在上世纪90年代前的百强榜上。大部分诗论家出现在上世纪90年代后的百强榜上。上世纪90年代看起来是一个关键时期。如我们所见,弦乐爱好者和诗论家这两个聚类在上世纪90年代几乎平分秋色。2. 乐器使用下降主要是因为摇滚乐队不再流行在上世纪60年代后期到21世纪早期,乐队极为流行,数量和单独的艺术家一样多。在21世纪之前,对每一年而言

6、,乐队数量越多,当年的平均乐器性的数值就越高。然而,在21世纪以来,乐队数对乐器的使用基本上毫无影响。除了两个离散值,从上图我们可以看到,乐队数和乐器使用没什么关系。这很有趣,因为正如我之前提到过的,在21世纪早期,乐队仍然很流行。所以,发生了什么?我相信你已经猜到了。乐队的类型变化了。在上世纪90年代之前,大约60%的乐队是摇滚乐队典型的摇滚乐队由一名主唱和一组乐器手组成。然而,21世纪以来,摇滚乐队的百分比显著下降了,为流行乐队(Pop bands)腾出了空间,流行乐队通常完全由歌手组成,例如天命真女(Destinys Child)、小野猫(Pussycat Dolls)、五美(Fifth

7、 Harmony)、单向(One Direction)。3. 诗论家聚群的兴盛也许部分归因于嘻哈的兴起除了语音值的提升(用词的增加),诗论家聚群使用复合词的几率是弦乐爱好者聚群的两倍以上(例如,Jay-Z喜欢用opulence而不是wealth),用词的音节数也更多。这让我们马上联想到了一种音乐流派:嘻哈(Hip-Hop)。我们看到,嘻哈在上图的四项统计中均排第一,难怪嘻哈在上世纪90年代成为主流流行乐和诗论家聚群的兴盛相呼应。4. 尽管音乐风格大变,过去六十年流行歌曲的主题始终是爱情我使用主题建模算法得出了这一结论。顾名思义,该算法搜索给定文本的主题。在我们的例子中,文本为告示牌百强单曲的歌

8、词。让我们看看主题是如何随着年代而改变的:乍看起来,主题和风格一样,都在上世纪90年代发生了交替。然而,让我们看看这两个主题(Topic 1和Topic 2)的具体内容:我们看到,这两个主题其实大同小异。过去60年的百强单曲,大部分都是“Yeah, I love my baby”(耶!我爱我的宝贝!)主要的差别在于,上世纪90年代之前的歌曲可能更“直接”一点,正如你在上图中看到的“gonna”(将要)。而上世纪90年代之后的歌曲看起来要间接一点,用“wanna”(想要)取代了“gonna”(将要)。比较“安静”的流派在诗论家时代绝迹了这多多少少确认了我们比以前更偏爱大声的音乐。各个流派的平均响

9、度五个最安静的流派是爵士(Jazz)、摇摆乐(Swing)、民谣(Folk)、蓝调(Blues)、迪斯科(Disco)。在诗论家时代,这些流派在百强榜上绝迹了,除了爵士乐还靠Norah Jones勉强存活。这些意味着什么?总结一下:上世纪90年代是流行音乐极其重要的时期。今日流行乐的形态,与摇滚乐队的衰弱和嘻哈的兴起有很大关系。过去六十年来,爱情是流行乐永恒的主题,不过不同时期的音乐对这一主题的演绎有一些微妙的不同。是的,现代艺术家可能更大声,但这是因为我们有话要说 :)奖励迈克尔杰克逊,尽管主要活跃于上世纪80年代,属于诗论家聚群!他领先了时代!结语为了更好地演示这个项目的数据,我基于cha

10、rt.js创建了一个面板http:/bit.ly/music-dashboard目前我还没有做好移动端适配,所以推荐在电脑上使用。现在这个面板有两个标签页,第一个艺术家标签页(Artist Dashboard)可以让你查看艺术家的歌曲特征的平均值。第二个对比标签页(Comparison Dashboard)可以让你比较2-3位艺术家的歌曲特征。我所说的诗论家时代正是当前的时代,因此如果我们有2016年到2018年的数据(特别是陷阱音乐的兴起),上面的有些见解可能会改变。不过,我认为大体上不会有太大的变动。评测歌曲的“政治觉悟”(politically-aware)会很有意思。我可能会在Twitter上(RosebudAnwuri)发布这一结果。我在创建这个项目的时候获得了很多乐趣,我希望你阅读的时候也获得了同样的乐趣。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1