网易云课堂课程分布可视化练习
最近一直在陆陆续续学习python爬虫的相关知识,在获取了数据之后的可视化呈现成为下一个目标,于是又开始了tableau的学习,感觉真的是学无止境,学海无涯,一座山头爬完还有另一座。
作为练手项目,选取了网易云课堂的课程作为切入点,谁叫我刚花了30rmb买了talbeau的课程培训呢,就拿你开刀。
爬取的目标是:【找课程】栏目下所有课程的‘标题’,‘价格’,‘学习人数’,试图找到价格和学习人数之间的关系,有朝一日我也开课的话给个什么区间的指导价比较合适。
爬取过程中遇到的坑有:(1)使用了ajax,不能像获取静态html内容那么操作(2)使用post方法获取了json数据后,面临的数据解析和翻页遍历(3)最后写入csv文件,并分列处理
数据清洗过程中的坑是:由于课程标题中有各种各样的符号,在excel中做分列处理时不能简单的以空格或者逗号、冒号来做分割(csv按列写入文件总是失败)
可视化过程中选择了气泡图来反映两个维度之间的关系。
最后成图如下:
牵强的结论:
(1)付费比例还是比较低,免费课程的参与人数远远高于付费
(2)在付费课程中,定价在11-50元之间的参与人数是最多的