用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

2018-09-03 15:23:23 198点赞 2717收藏 66评论

此次的达人任务有个分类是浏览器插件,正好可以和各位值友分享一下利用Chrome插件Web Scraper爬取网页内容的方法,随后可以用Power BI这样的可视化工具做进一步数据分析。

本人喜欢看恐怖片,基本上每周都会看几部电影,有的是网上下载,有时是去电影院,在张大妈这里也分享过不少影评文章了,其中我最喜欢看的就是恐怖片了,值友们有兴趣可以看看我的几篇关于恐怖片的原创。

胆小勿入——最近看的十部恐怖片小编注:慎点!内有恐怖片介绍,友情提示胆小勿入~一直很喜欢看电影,毕业后开始习惯于在豆瓣记录自己的观影经历,目前为止已经看过了1238部电影了。在各种电影类型中,尤其钟爱恐怖片,喜欢观影时的那种酣畅淋漓的感觉。晚上在床上看平淡的电影经常会犯困睡着,看恐怖片就没有此烦恼,大概是恐怖片看的太多了,有点免LifeIsKillingMe| 333 评论289 收藏2k查看详情重口味小清新 — 推荐十部西班牙悬疑/惊悚/恐怖电影本人之前一文《胆小勿入——最近看的十部恐怖片》没想在此引发巨大反响,目前已经有1800余值友收藏,看来张大妈这里的同好还不少。首先集中回答一些值友之前的疑问:1.关于排名:电影本来就是各花入个眼,所谓排名和个人喜好,观影心情场所等有关,不作为绝对依据。建议还是参考豆瓣或IMDB的排名。2.关于资源:LifeIsKillingMe| 310 评论132 收藏2k查看详情胆小勿入!《寂静之地》这部我第一次在国内大银幕观看的恐怖片到底讲了什么?之前在本站分享过两篇关于恐怖片的分享文章,没想到引起了值友们的热烈反响。一直以来有个想法,希望能在国内的影院里看一次原汁原味的恐怖片。理论上来说,这个愿望其实并不难实现。前几年的上海电影节都有恐怖片的展映环节,只不过广电总局对于此类电影还是有着明显的抵触情绪的,恐怖片的排片都是安排在夜场且远离市区较LifeIsKillingMe| 95 评论181 收藏490查看详情

其他影评文章也很多,欢迎关注交流。

言归正传哦,查看电影信息评分的网站有不少,国外的有Metacritic,烂番茄,IMDB,国内有时光网,猫眼,豆瓣等等。我本人已经常用的就是IMDB和豆瓣了,IMDB上有Trivia这样的花絮信息,豆瓣上有砖家影评,评分基数大也比较中立。那么能不能利用一个简单的方法抓取豆瓣上的电影信息呢?

答案当然是肯定的,其实爬网的方法很多,如果你对编程有一些基础,可以使用Python语言的Scrapy框架;如果对于爬网效率要求不高,也可以直接尝试本文的Chrome的Web Scraper插件,全部是在可视化界面操作。

什么是Web Scraper?

webscraper 是一款谷歌插件,可以方便的抓取网页上的内容:文字、链接、图片、表格等,而无需写一行代码。官方网址,它的主要优点如下:

  • 免费

  • 不受操作系统限制,只要安装Chrome浏览器即可运行

  • 操作简单,易上手

  • 功能强大:不仅可以抓静态网页,对于js动态加载的数据,也很容易抓取

如何安装Web Scraper?

首先当然电脑要有Google Chrome浏览器作为载体,对于浏览器版本没什么要求,安装最新版的即可。

Chrome插件有好几种安装方法,最简单的方法是在Google Store中直接下载,或者同学可以从我共享的百度云网盘中下载。

链接密码:93oz

在Chrome的地址栏中输入chrome://extensions回车,可以进入插件配置页面;然后将网盘下载的Web-Scraper_v0.2.0.10.crx文件拖至浏览器中,然后选择Add extension安装。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

其实呢,crx文件就是一个打包的压缩文件,拖入浏览器之后,就会自动在Chrome的插件目录中解压缩,并加载,可以看到Web Scraper已经在配置页面中显示了。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

安装简单吧,如果是Python程序环境配置还要捯饬好半天呢。

豆瓣电影信息抓取实战

下面我们来实战抓取一下豆瓣的信息,我给自己命了个题是抓取近期豆瓣恐怖分类的电影名称,电影评分,上映时间等信息。

首先让我们来打开网页,分析一下网页的基本构成。

点击类型为恐怖,并且按时间排序

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

翻到页面下部,可以看到有个加载更多的链接,点击之后会加载更多电影,为了显示更多电影,需要多次点击这个按钮。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

按下键盘上的快捷键F12,然后选择Web Scraper的菜单。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

结果发现没有任何子菜单产生......

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

稍微研究了下,发觉可能是因为视图的原因,造成选项无法正常显示。于是点击右侧Dock to Bottom将窗口固定在浏览器下方。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

可以看到现在在Web Scraper下面有Sitemaps等选项了。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

首先要新建一个新的Sitemap也就是新建一个要抓取的站点。点击Create sitemap

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

输入Sitemap Name和Start URL,注意站点名称是不能包含空格的,我这里起名为douban-horror-movie

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

爬网呢,是按照从上至下的次序分级进行的,确定了网站,然后我们要告诉Web Scraper下一部要抓取的对象,点击Add new selector

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

第二级就是页面中的电影选项卡,我把它命名为movies,类型是Element click。选择这一类型是因为网页默认视图无法一次性显示所有电影选项卡,需要多次点击页面中的加载更多链接。点击Selector中的Select,然后移动鼠标选中任意页面中某部电影的选项卡,然后点击Done selecting!确认。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

然后,选择Click selector中的Select,拉动页面,选择网页中的加载更多按钮,点击Done selecting!可以看到选中后会出现a.more的网页元素,如果您熟悉html等网页语言,就很容易理解了。因为,要抓取多部电影所以页面下方要勾选Multiple

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

下面还有一些其他的选项,建议还是在Delay(ms)中设置一个延迟时间,实操中我发现如果用默认值网页加载的速度可能不够快,会导致Web Scraper抓取不到需要的信息提前中止。

至此,第二级对象设置完毕。然后,我希望Web Scraper分别点开所有的电影选项卡,查看到子页面的电影信息。那么主页面和子页面之间需要建立一个桥梁,所以我需要一个链接(Link)。操作方法是和上面那个对象是一致的,选中链接,保存即可。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

以上这些步骤都是抽丝剥茧,我们的真正目标是子页面电影详情中的信息。这里大家要注意,不要点击当前页面的链接到达子页面,这样会离开Web Scraper的配置界面,要将子页面的地址拷贝到当前网页窗口。

下面是抓取子页面的信息,比如电影标题。方法没有变化,选择类型为Text,点击Selector中的Select,选中页面的电影标题,然后点击Done selecting!按钮。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

其他要选择的内容就可以自由发挥了,比如制片国家,上映年份,评分等等,类型都是Text。我这里就选择了最简的电影标题,年份和评分。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

然后,点击Web Scraper菜单中的Start scraping按钮就可以开始爬网了!

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

然后你会看到网页在欢乐地跳动着......不要停......不要停......

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

等到一切归于平静,可以看到一众烂片的信息映入眼帘。可以点击Export data as CSV

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

打开CSV的各式是这样的,我的示例中是爬取了2010年起的497部电影。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

用Power BI对数据作进一步分析

有了源数据,就可以利用Power BI做进一步分析了。

Power BI可以在微软的网站上免费下载试用

在Power BI中点击获取数据->文本/csv,倒入源数据

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

先将jump,jump-href等无效列给删除

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

其实数据很简单,只有三列,但是第三列的数值型数据都有个"-",需要把它去掉。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

既然是数字型数据,要把它变正最简单的方法就是取绝对值了,右键此列选择绝对值即可。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

至此对于源数据的处理已告结束。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

点击左侧上部的“报表”区域,可以添加图表。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

这里做个简单的示例,添加一个切片器,用来控制年份。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

再添加一个折线图。然后分别将年份,评分拖动到对应的位置。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

默认是对当年电影所有评分求和,可以在设置中改为平均值

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

依图所示,貌似2018年的恐怖片的质量居然有所提高,这是个非常恐怖的发现,我今年真没发现什么特别好看的恐怖片。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

作为一款强大的数据可视化工具,也可以在显示详细数据,见下图,其实分数变动不大,如果把纵轴的设置修改一下,就不会显得这么突兀了。

用Chrome上的插件Web Scraper爬取豆瓣恐怖片列表+Power BI数据分析实战

这里分享了一下利用Chrome浏览器的Web Scraper插件抓取豆瓣数据以及Power BI分析数据的简单方法,其他网站的处理方法也是大同小异,大家可以举一反三,比如可以抓个什么值得买的优惠信息,优秀原创文章等等,这样以后就不用上这啥都有的破网了,哈哈~

展开 收起

Microsoft 微软 Office 365 个人版

Microsoft 微软 Office 365 个人版

106元起

Microsoft 微软 到手18.2元/月 微软office365家庭版microsoft365增强版15个月

Microsoft 微软 到手18.2元/月 微软office365家庭版microsoft365增强版15个月

279元起

Microsoft 微软 office专业版永久激活码office2019增强版终身版outlook密钥

Microsoft 微软 office专业版永久激活码office2019增强版终身版outlook密钥

249元起

Microsoft 微软 活动6天 office365家庭版microsoft365订阅密钥

Microsoft 微软 活动6天 office365家庭版microsoft365订阅密钥

239元起

自助挂号应用服务

自助挂号应用服务

15000元起

Microsoft 微软 Office2016小型企业版 MAC专用

Microsoft 微软 Office2016小型企业版 MAC专用

149元起

SANGFOR 深信服科技 存储虚拟化双活软件V6.0

SANGFOR 深信服科技 存储虚拟化双活软件V6.0

29000元起

Microsoft 微软 365家庭版个人版正版密钥Office365永久激活2021Mac

Microsoft 微软 365家庭版个人版正版密钥Office365永久激活2021Mac

暂无报价

猎寻 手机信息采集系统1.0 -ZK5000(手机快速点验/手机检查仪)

猎寻 手机信息采集系统1.0 -ZK5000(手机快速点验/手机检查仪)

38800元起

黑马校对软件v22.0国产化平台服务器版6亿字技术支持私有化部署服务

黑马校对软件v22.0国产化平台服务器版6亿字技术支持私有化部署服务

170000元起

京东 金山麒麟WPS办公软件V11

京东 金山麒麟WPS办公软件V11

暂无报价

Microsoft 微软 MAC专用办公软件office2019永久版

Microsoft 微软 MAC专用办公软件office2019永久版

269元起

华三(H3C) SecPath F100-BAS AV 防病毒 License,3年

华三(H3C) SecPath F100-BAS AV 防病毒 License,3年

6904元起

卡巴斯基(kaspersky)网络解决方案中小企业版杀毒软件1服务器10台PC三年升级

卡巴斯基(kaspersky)网络解决方案中小企业版杀毒软件1服务器10台PC三年升级

3990元起

Microsoft 微软 OfficePLUS 订阅会员

Microsoft 微软 OfficePLUS 订阅会员

9.9元起

Nintendo 任天堂 Switch游戏卡带《大航海时代4 威力加强版 HD》 中文

Nintendo 任天堂 Switch游戏卡带《大航海时代4 威力加强版 HD》 中文

196元起
66评论

  • 精彩
  • 最新
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
2.7K
扫一下,分享更方便,购买更轻松