一、课程简介
通过学习本案例,可掌握Selenium进行网页数据的HTML代码获取、XPath提取关键信息、对获取的数据进行处理以及可视化分析的主要方法和技能,并为后续相关课程学习及将来从事数据分析工作奠定基础。 本案例以国内提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务的豆瓣电影为数据源,获取了2019年初争议比较大的《流浪地球》豆瓣短评,并对获取的短评数据进行了预处理和评分分析、用户居住地分析等。
本案例的主要分析目标如下。
(1) 分析影响电影的放映情况的相关因素。
(2)分析《流浪地球》在市场上受到的关注和讨论情况,为其他影视作品的拍摄与取材等提供参考。
二、技术点
Selenium爬虫;XPath网页解析;pandas数据处理;pyplot图形绘制。
三、建议前置课程