唐苏不管其他人了,她开始操作了。
她先进行了Hadoop相关组件安装部署,主要是安装Hive组件。
第一步完成之后,她开始使用Python语言爬取数据。
唐苏以前也去一些网站爬取过数据,这一步对于她来说难度并不是很大,这也是作为大数据专业的学生需要掌握的基本技能之一。
第二步,爬取到了数据,唐苏开始提取有效数据,然后对数据进行格式转化,转化为json格式。这一步唐苏很熟练的完成了,因为以前就做过。
第三步,需要对数据进行清洗和分析。这一步是非常关键的一步。唐苏考虑了一下后,使用了java语言编写了用于数据清洗的MapReduce程序。清洗好数据之后,她将可用数据加载到Hive数据库中,通过运行HQL命令完成数据的分析与统计。最后在Hive中执行SQL脚本,查看表中的数据。
这一系列操作花了不少的时间,唐苏看到两个小时已经过去了。
她仅剩一个小时完成赛题。
第四步是完成数据可视化,唐苏思考了一下后分别采用柱状图,折线图,以及雷达图来输出自己分析的数据。
这次赛题的主题是对各地IT行业从业人员的薪资情况进行对比分析,得出分析结果。
内容未完,下一页继续阅读