一、赛项名称
赛项名称:大数据技术与应用
赛项组别:高职组
竞赛形式:团体赛
赛项专业大类:电子信息
二、竞赛目的
为适应大数据产业对高素质技术技能型人才的职业需求,赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Hadoop平台环境下,利用Hadoop技术生态组件的特点,综合软件开发相关技术,解决实际问题的能力,激发学生对大数据相关知识和技术的学习兴趣,提升学生职业素养和职业技能,努力为中国大数据产业的发展储备及输送人才。
通过举办本赛项,可以搭建校企合作的平台,提升大数据技术与应用专业及其他相关专业毕业生能力素质,满足企业用人需求,促进校企合作协同育人,对接产业发展,实现行业资源、企业资源与教学资源的有机融合,使高职院校在专业建设、课程建设、人才培养方案和人才培养模式等方面,跟踪社会发展的最新需要,缩小人才培养与行业需求差距,引领职业院校专业建设与课程改革。
三、竞赛内容
(一)竞赛内容
赛项以大数据技术与应用为核心内容,重点考查参赛选手基于Hadoop平台环境下,利用Hadoop技术生态组件,综合软件开发相关技术,解决实际问题的能力,具体包括:
1.掌握按照项目需求配置管理Hadoop大数据平台及相关生态组件;
2.掌握企业常用采集工具和网络爬虫的相关技术,完成指定数据的采集及处理能力;
3.综合利用MapReduce、Spark、Storm等技术、分布式存储系统、数据仓库Hive等工具,使用Java、Python等开发语言,完成数据清洗、存储、转化、分析及数据推送等一系列大数据操作;
4.综合运用HTML、CSS、JavaScript、Python等开发语言,对数据进行可视化呈现;
5.根据数据可视化结果,完成数据分析报告的编写;
6.竞赛时长4小时,竞赛连续进行。
竞赛内容构成如下:
考核环节 | 考核知识点和技能点 | 描述 |
Hadoop平台及组件的部署管理 | Hadoop平台安装部署和基本配置 | 考察Hadoop平台及组件的部署能力,掌握常用的基本配置和命令,能够部署和管理Hadoop高可用集群。 |
Hadoop集群节点的动态增加与删除 |
Hadoop平台相关组件部署与管理 |
Hadoop平台的高可用 |
数据采集 | 使用开发者工具查看网页源码,分析网页结构,明确数据采集对象 | 考察学生多维度数据采集能力,包括对关系型数据库、非关系型数据库和网络爬虫技术的应用。 |
构建数据采集请求,抓取网络数据 |
利用网络爬虫相关组件实现网络数据爬取 |
规则文件数据和关系型数据库数据抓取以及数据同步 |
非关系型数据库数据抓取以及数据同步 |
数据采集结果导出及数据库推送 |
数据清洗与分析 | 基于Hadoop平台架构组件和多维度的数据采集,实现数据一致性检查、无效值和缺省值的处理 | 考察对分布式计算、分布式存储系统、数据仓库等综合应用能力,使用Java、Python等开发语言,完成数据清洗、数据存储、数据转化、数据分析、数据预测及数据推送等一系列数据操作 |
多表数据合并和离群值处理 |
通过常见的数据分析算法,对数据进行标准化、离散化和多元化分析 |
掌握数据仓库导入、导出,利用数据仓库相关命令或代码实现数据多维度、多层次的分析 |
对数据的查询、整理和计算。进行编译、打包、发布,执行程序,完成数据处理、清洗。 |
实现不同数据库间的文件传输及转换 |
数据预测分析 |
数据可视化 | 编写后台代码实现数据库访问和数据整理 | 通过常见的数据可视化方法,将数据分析结果以图表的形式进行呈现,使用Python及Web前端等编程语言,实现数据源分析结果展现 |
编写Web前端代码,对数据分析结果进行呈现 |
综合分析 | 通过知识技能,根据数据分析、预测及可视化结果进行分析,做出分析报告。 | 考察学生对大数据技术与分析的综合操作能力和业务分析能力 |
(二)竞赛流程
根据竞赛任务要求,参赛队伍在4小时竞赛时间内按顺序完成各项竞赛任务,每项任务用时自行掌握。
1.日程安排
日期 | 时 间 | 内 容 |
2021年 4月16日 (星期五) | 10:00-14:00 | 报到 |
15:00-16:00 | 指导老师会议 |
16:00-16:30 | 选手熟悉竞赛场地 |
16:30-17:00 | 裁判员会议 |
2021年 4月17日 (星期六) | 8:00-8:10 | 领队抽取场次签及检录顺序号 |
8:10-8:30 | 测量体温、参赛队检录入场、信息加密 |
8:30-12:30 | 竞赛选手完成竞赛任务 |
12:30-20:30 | 竞赛成绩评定,进行成绩汇总后报省教育厅 |
2.竞赛流程
四、竞赛方式
1.本赛项采用团体赛方式进行。
2.竞赛队伍组成:各院校以近期省教育厅发布的“2019、2020安徽省职业院校技能竞赛分赛项获奖院校统计.xls”文件中本赛项获奖院校及“安徽省教育厅关于开展2021年全国职业院校技能大赛高职组省级选拔赛的通知”文件精神为标准,以院校为单位组队参赛,不得跨校组队,每个参赛队由3人(其中1队长1名)组成,每个参赛队可配1-2名指导老师,指导教师须为本校专兼职教师,参赛选手和指导教师报名获得确认后不得随意更换。
3.竞赛时间4小时。
五、竞赛试题
本赛项样题详见《附件一》。
六、竞赛规则
1.参赛资格:参赛选手须为高等职业学院全日制在籍学生;本科院校中高职类全日制在籍学生;五年制高职四、五年级学生;年龄不超过25周岁,性别不限。凡在往届本赛项全国大赛中获一等奖的学生,不得参加同一组别同一赛项的竞赛。
2.参赛选手应严格遵守赛场纪律,服从指挥,着装整洁,仪表端庄,讲文明礼貌。各地代表队之间应团结、友好、协作,避免各种矛盾发生。
3.参赛队的竞赛工位号采用抽签方式确定。赛题以任务书形式发放,竞赛参考资料在赛前植入参赛选手的计算机,参赛队根据任务书要求完成竞赛任务。
4.组委会统一布置竞赛需要的软硬件环境。选手不得私自携带任何移动存储、辅助工具、移动通信等进入赛场。
5.参赛选手报到当天可预先熟悉比赛场地,但不得进行现场练习。参赛选手按规定时间到达指定地点,凭参赛证、学生证和身份证(三证必须齐全)进入赛场。选手迟到10分钟取消比赛资格。
6.参赛选手不得携带通讯工具和其它未经允许的资料、物品进入比赛场地,不得中途退场。如出现违规、违纪、舞弊等现象,经裁判组裁定取消比赛成绩。
7.新闻媒体在赛场设定的媒体采访区工作,并且听从现场工作人员的安排和管理,不能影响比赛进行。
8.在竞赛过程中,参赛选手如有疑问,应举手示意,考场裁判长应按要求及时予以答疑。如遇设备或软件等故障,参赛选手应举手示意,考场裁判长、技术人员等应及时予以解决。确因计算机软件或硬件故障,致使操作无法继续的,经考场裁判长确认,予以启用备用设备。
9.比赛过程中,参赛选手须严格遵守操作标准和规范,保证自身安全,并接受裁判员的监督和警示;若因设备故障导致选手中断或终止比赛,由大赛裁判长视具体情况做出裁决。
10.参赛选手不得因各种原因提前结束比赛。如确因不可抗因素需要离开赛场的,须向现场裁判员举手示意,经裁判员许可并完成记录后,方可离开。凡在竞赛期间内提前离开的选手,不得返回赛场。
11.现场比赛结束,经裁判员确认后方可离开赛场。
12.各赛项由裁判员现场评分,经裁判长签字确认后予以公布,如有异议请直接向大赛仲裁工作组申请复核。
13.每个参赛队必须参加所有专项的比赛。参赛选手应严格遵守赛场纪律,服从指挥,着装整洁,仪表端庄,讲文明礼貌。各地代表队之间应团结、友好、协作,避免发生任何形式的矛盾。
14.参赛选手测量体温超过37.3℃,取消参赛资格。
15.其它未尽事宜,将在赛前向各领队做详细说明。
七、竞赛环境
竞赛现场设置场内竞赛区、现场裁判工作区、技术支持区等。
监考人员协助裁判长和现场裁判做好负责工位范围内的秩序维持,监考人员不得在考场内随意走动。
技术支持保障人员在技术支持服务区候场,有需要时在现场裁判的带领下到相关的工位进行赛场技术支持保障,在条件具备时,技术支持区可不设置在考场内。
场内竞赛区为参赛队提供统一的竞赛设备;无需选手自带任何工具及附件。
竞赛现场符合消防安全规定,现场消防器材和消防栓合格有效,应急照明设施状态合格,赛场明显位置张贴紧急疏散图,赛场地面张贴荧光疏散指示箭头,赛场出入口专人负责,随时保证安全通道的畅通无阻。
各工位分区供电,强电弱电分开布线,现场临时用电满足《施工现场临时用电安全技术规范》JGJ46-2005的要求。竞赛现场通风良好、照明需符合教室采光规范。
八、技术规范
本赛项的技术规范将包括:相关专业的教育教学要求、行业、职业技术标准,以及根据高职目录修订后的大数据技术与应用相关专业人才培养标准和规范,适时地修订本赛项遵循的技术规范。
(一)基础标准
标 准 | 内 容 |
GB/T 11457-2006 | 信息技术、软件工程术语 |
GB8566-88 | 计算机软件开发规范 |
GB/T 12991-2008 | 信息技术数据库语言SQL第1部分:框架 |
GB/T 21025-2007 | XML使用指南 |
GB/T 20009-2005 | 信息安全技术数据库管理系统安全评估准则已发布 |
GB/T 20273-2006 | 信息安全技术数据库管理系统安全技术要求 |
20100383-T-469 | 信息技术安全技术信息安全管理体系实施指南 |
(二)软件开发标准
标 准 | 内 容 |
GB/T 8566 -2001 | 信息技术、软件生存周期过程 |
GB/T 15853 -1995 | 软件支持环境 |
GB/T 14079 -1993 | 软件维护指南 |
GB/T 17544-1998 | 信息技术、软件包、质量要求和测试 |
九、技术平台
(一)竞赛设备
设备类别 | 数量 | 设备用途 | 基本配置 |
竞赛服务器 | 3台。 采用集群管理方式; 1台备用 | 支撑大数据竞赛管理系统运行使用。内嵌虚拟化资源管理控制端,作为虚拟化资源管理系统的计算资源、网络资源和存储资源的源节点。 | 1、CPU模块:2*Intel 5118(2.3GHz/12核/16.5MB/105W) 2、内存模块:8*32GB 2Rx4 DDR4-2666P-R 3、硬盘模块:6*600GB 12G SAS 10K 2.5in EP 512n 4、RAID卡:1*12Gb 2端口SAS RAID卡(带2GB缓存,支持8个SAS口,PCIe,不含超级电容) 5、网口:4端口千兆电接口网卡-360T-B2 6、电源模块:550W交流电源模块(白金) 7、超级电容模块:LSI G3超级电容模块(适配2U机型) |
大数据竞赛平台 (H3C-ADEkvm-DT) | 1 | 支撑大数据竞赛实操考试 | 系统基于kvm构建,可模拟大数据环境搭建、大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用等贯穿大数据技术的相关知识点,提供大数据竞赛管理系统所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库等基础支撑环境;涵盖分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化技术。具体包括:Hadoop、HDFS、Hbase、Hive、MapReduce、Kafka、Spark、Storm、Mahout、MySQL、Echarts等,所涉及开发语言包括Java、Python、Scala、HTML、Javascript等。 |
客户端 | 每支参赛队伍3台。 根据参赛团队数量,配备10%的备份机器。 | 竞赛选手比赛使用。 | 性能相当于i5处理器,8G以上内存,SSD 200G以上硬盘,显示器要求1024*768以上。 |
(二)软件环境
设备类型 | 软件类别 | 软件名称、版本号 |
服务器集群 | 大数据集群操作系统 | CentOS 7.4 |
大数据分析平台组件 | Hadoop 2.6.0 |
Yarn 2.6.0 |
Zookeeper 3.4.5 |
Hive 1.1.0 |
Flume 1.6.0 |
Sqoop 1.4 |
kafka 1.0 |
Spark 2.0 |
数据库 | MySQL 5.7 |
开发客户端 | PC操作系统 | Windows 10 64位 |
浏览器 | Chrome |
开发语言 | Python 3.6 64bit |
Java 8 |
Scala 2.11 |
开发工具 | Pycharm 2019 (Community Edition) |
IDEA2019 (Community Edition) |
数据采集组件 | Requests |
Scrapy |
数据可视化组件 | ECharts |
Flask |
Jinja2 |
Matplotlib |
文档编辑器 | WPS 2019 |
输入法 | 拼音输入法 |
十、成绩评定
(一)评分标准制定原则
竞赛评分制定严格遵守公平、公正的原则,大数据技术与应用赛项评分采用赛项结果评分方法,始终贯彻落实大赛一贯坚持的公平、公正和公开原则。赛项合作企业不得直接或者间接地参与赛项评分。
赛项评分依据选手固化在实操任务中的成果,通过评分裁判对比赛成果再现的方法评分,并兼顾团队协作精神和职业素养综合评定。
参与大赛赛项成绩管理的组织机构包括裁判组、监督组和仲裁组等。裁判组实行“裁判长负责制”,设裁判长1名,全面负责赛项的裁判与管理工作。
裁判员根据比赛工作需要分为检录裁判、加密裁判、现场裁判和评分裁判。检录裁判负责对参赛队伍(选手)进行点名登记、身份核对等工作;加密裁判负责组织参赛队伍(选手)抽签并对参赛队伍(选手)的信息进行加密、解密;现场裁判按规定做好赛场记录,维护赛场纪律;评分裁判负责对参赛队伍(选手)的技能展示、操作规范和竞赛成果等按赛项评分标准进行评定。
监督组对裁判组的工作进行全程监督,并对竞赛成绩抽检复核。
仲裁组负责接受由参赛队领队提出的对裁判结果的申诉,组织复议并及时反馈复议结果。
(二)评分方法
选手在完成任务之后,将任务完成结果拷贝至U盘中,由参赛选手队长签字确认(签工位号)。
评分采取分步得分、错误不传递、累计总分的计分方式。
不计参赛选手的个人得分,只记录团体得分。
参赛队提交比赛任务结束请求或者在比赛时间终止后,不得再进行任何操作。否则,视为比赛作弊,给参赛队记警告一次。
在竞赛过程中,选手如有不服从裁判判决、扰乱赛场秩序、舞弊等不文明行为,由裁判按照规定扣减相应分数并且给予警告,情节严重的取消竞赛资格,竞赛成绩记0分,队员退出比赛现场。
(三)成绩审核方法
竞赛结束后,由裁判长向裁判员核实竞赛过程中有无异常。如无异常,成绩单由裁判长签字确认并封存直至公布成绩时开启。
如有异常,在裁判长主持下,由专家组成员、裁判员、仲裁员和监督员共同处理。
(四)成绩公布方法
竞赛成绩经复核无误,经裁判长审核签字后,以赛项组委会最终公布结果为准
竞赛结束后,如参赛队对比赛成绩有异议,提出异议申诉或仲裁,可按照相关规定进行申诉和仲裁,按照仲裁结果公布竞赛成绩。
十一、申诉与仲裁
1.安徽省职业院校技能大赛设仲裁工作委员会,赛点设仲裁工作组,组长由大赛组委会办公室指派,组员为赛项裁判长和赛点执委会主任。
2.参赛队对赛事过程、工作人员工作若有疑异,在事实清楚,证据充分的前提下可由参赛队领队以书面形式向赛点仲裁组提出申诉。报告应对申诉事件的现象、发生时间、涉及人员、申诉依据等进行充分、实事求是的叙述。非书面申诉不予受理。
3.提出申诉应在赛项比赛结束后1小时内向赛点仲裁组提出。超过时效不予受理。提出申诉后申诉人及相关涉及人员不得离开赛点,否则视为自行放弃申诉。
4.赛点仲裁工作组在接到申诉报告后的2小时内组织复议,并及时将复议结果以书面形式告知申诉方。
5.对赛点仲裁组复议结果不服的,可由代表队所在院校校级领导向大赛仲裁委员会提出申诉。大赛仲裁委员会的仲裁结果为最终结果。
6.申诉方不得以任何理由拒绝接收仲裁结果;不得以任何理由采取过激行为扰乱赛场秩序;仲裁结果由申诉人签收,不能代收;如在约定时间和地点申诉人离开,视为撤诉。
7.申诉方可随时提出放弃申诉。
十二、竞赛观摩
1.由于赛项特点及赛场条件限制,本赛项不设置现场观摩环节。
2.新闻媒体等进入赛场必须经过大赛执委会允许,由专人陪同并听从现场工作人员的安排和管理,不能影响比赛进行。
十三、竞赛须知
(一)参赛队须知
1.参赛队名称:统一使用规定的学院代表队名称,不使用其他组织、团体的名称;
2.参赛队组成:每支参赛队由3名参赛选手组成,须为同校在籍学生,其中队长1名。每支参赛队可配2名指导教师,指导教师须为本校专兼职教师。不接受跨校组队,同一学院可报名多支参赛队伍;
3.各参赛院校应指定1名负责人任赛项领队,全权负责该校参赛事务的组织、协调和领导工作。
4.参赛选手及指导教师在报名获得确认后,原则上不再更换。如在筹备过程中,参赛选手和指导教师因故不能参赛,须由其所在学院供职部门于赛项开赛前10个工作日之前出具书面说明,经大赛执委会办公室核实后予以更换。允许队员缺席比赛;允许指导教师缺席比赛。
5.参赛队按照大赛赛程安排,凭赛项执委会颁发的参赛证和有效身份证件参加比赛及相关活动。
6.赛项执委会统一安排各参赛队在比赛前一天进入赛场熟悉环境和设施情况。
7.参赛队选手、领队和指导教师要有良好的职业道德,严格遵守比赛规则和比赛纪律,服从裁判,尊重裁判和赛场工作人员,自觉维护赛场秩序。
8.领队应负责赛事活动期间本队所有选手的人身及财产安全,如发现意外事故,应及时向赛项执委会报告。
9.各学院组织代表队时,须为参赛选手购买大赛期间的人身意外伤害保险。
(二)领队和指导教师须知
1.严格遵守赛场的各项规定,服从裁判,文明竞赛。如发现弄虚作假者,取消参赛资格,名次无效。
2.领队和指导教师务必带好有效身份证件,在活动过程中佩戴“指导教师证”参加竞赛相关活动。
3.各代表队领队要坚决执行竞赛的各项规定,加强对参赛人员的管理,做好赛前准备工作,督促选手带好证件等竞赛相关材料。
4.在比赛期间要严格遵守比赛规则,不得私自接触裁判人员。
5.竞赛过程中,未经裁判许可,领队、指导教师及其他人员一律不得进入竞赛现场。
6.如对竞赛过程有疑议,由领队和指导教师负责以书面形式向大赛仲裁委员会反映,但不得影响竞赛进行。
7.对申诉的仲裁结果,领队要带头服从和执行,并做好选手工作。参赛选手不得因申诉或对处理意见不服而停止竞赛,否则以弃权处理。
8.领队和指导老师应及时查看有关赛项的通知和内容,认真研究和掌握本赛项竞赛的规程、技术规范和赛场要求,指导选手做好赛前的一切技术准备和竞赛准备。
(三)参赛选手须知
1.参赛选手应严格遵守赛场规章、操作规程和工艺准则,保证人身及设备安全,接受裁判员的监督和警示,文明竞赛。
2.参赛选手应按照规定时间抵达赛场,凭身份证、学生证,以及统一发放的参赛证,完成入场检录、抽签确定竞赛工位号,不得迟到早退。
3.参赛选手凭竞赛工位号进入赛场,不允许携带任何电子设备及其他资料、用品。
4.参赛选手应在规定的时间段进入赛场,认真核对竞赛工位号,在指定位置就座。
5.参赛选手入场后,迅速确认竞赛设备状况,填写相关确认文件,并由参赛队长确认签字(竞赛工位号)。
6.参赛选手在收到开赛信号前不得启动操作。在竞赛过程中,确因计算机软件或硬件故障,致使操作无法继续的,经项目裁判长确认,予以启用备用计算机。
7.赛项任务书及相关资料,均保存在竞赛环境的“大赛资料”中。参赛选手应在竞赛规定时间内完成任务书内容,并按照要求,将相应文档上拷贝到U盘。
8.参赛选手需及时保存工作记录。对于因各种原因造成的数据丢失,由参赛选手自行负责。
9.参赛队所提交的答卷采用竞赛工位号进行标识,不得出现地名、校名、姓名、参赛证编号等信息,否则取消竞赛成绩。
10.竞赛过程中,因严重操作失误或安全事故不能进行比赛的(例如因操作原因发生短路导致赛场断电的、造成设备不能正常工作的),现场裁判员有权中止该队比赛。
11.在比赛中如遇非人为因素造成的设备故障,经裁判确认后,可向裁判长申请补足排除故障的时间。
12.参赛选手不得因各种原因提前结束比赛。如确因不可抗因素需要离开赛场的,须向现场裁判员举手示意,经裁判员许可并完成记录后,方可离开。凡在竞赛期间内提前离开的选手,不得返回赛场。
13.竞赛操作结束后,参赛选手需要根据任务书要求,将相关成果文件拷贝至U盘,填写结束比赛相关确认文件,并由参赛队长签字确认(竞赛工位号)。因参赛选手未能按要求,将相应的文档等拷贝至U盘的,竞赛成绩计为零分。
14.竞赛时间结束,选手应全体起立,停止操作。将资料和工具整齐摆放在操作平台上,经工作人员清点后可离开赛场,离开赛场时不得带走任何资料。
15.在竞赛期间,未经执委会批准,参赛选手不得接受其他单位和个人进行的与竞赛内容相关的采访。参赛选手不得将竞赛的相关信息私自公布。
16.符合下列情形之一的参赛选手,经裁判组裁定后中止其竞赛:
(1)不服从裁判员/监考员管理、扰乱赛场秩序、干扰其他参赛选手比赛,裁判员应提出警告,二次警告后无效,或情节特别严重,造成竞赛中止的,经裁判长确认,中止比赛,并取消竞赛资格和竞赛成绩。
(2)竞赛过程中,由于选手人为造成计算机、仪器设备及工具等严重损坏,负责赔偿其损失,并由裁判组裁定其竞赛结束与否、是否保留竞赛资格、是否累计其有效竞赛成绩。
(3)竞赛过程中,产生重大安全事故、或有产生重大安全事故隐患,经裁判员提示没有采取措施的,裁判员可暂停其竞赛,由裁判组裁定其竞赛结束,保留竞赛资格和有效竞赛成绩。
(四)工作人员须知
1.竞赛现场设现场裁判组,裁判长1名,现场裁判若干名。裁判要秉公裁判,监督检查参赛队安全有序竞赛。如遇疑问或争议,须请示裁判长裁决,裁判长的决定为现场最终裁定。
2.赛场工作人员由赛项执委会统一聘用并进行工作分工,进入竞赛现场须佩戴赛项执委会统一提供的胸牌。
3.赛场工作人员需服从赛项执委会的管理,严格执行赛项各项比赛规则,执行各项工作安排,积极维护好赛场秩序,坚守岗位,为赛场提供有序的服务。
4.赛场工作人员进入现场,不得携带任何通讯工具或与竞赛无关的物品。
5.参赛队进入赛场,现场裁判应按规定审查参赛选手带入赛场的物品,如发现不允许带入赛场的物品,交由参赛队随行人员保管,赛场不提供保管服务。
6.赛场工作人员在竞赛过程中不回答选手提出的任何有关比赛技术问题,如遇争议问题,应及时报告裁判长。
附件一:大数据技术与应用赛项竞赛试题(样卷)
近年来随着IT产业的加速发展,全国各地对IT类的人才需求也越来越多“ABC公司”为了明确今后IT产业人才培养方向,在多地进行IT公司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、招聘人数等信息,并通过对数据的清洗和分析,得出各地域招聘人数,“大数据”相关职位招聘数量,以绘制雷达图展示各地平均薪资情况。
为完成该项任务,你所在的小组计划选用在业界广泛应用的“Python和JAVA”语言,作为整个项目的基础语言,并综合利用requests模块、MapReduce、MySQL、Flask开源框架、Jinja2模板引擎和ECharts组件提高开发效率并实现项目要求,由于本次为模拟任务,总数据量不会过大,项目组计划使用分布式节点Hadoop模式,本次项目环境搭建采用服务器集群方式,配置了小规模的技术演示环境,通过在招聘网站上爬取到的相关信息,使用requests模块、Hive、Python、JAVA等手段对数据进行爬取、清洗、整理、计算、表达、分析,力求实现对IT人才就业信息拥有更清晰的掌握。
请按照下面步骤完成本次技术展示任务,并提交技术报告。
任务一:Hadoop相关组件安装部署(15分)
当前环境中已安装Hadoop运行环境和MySQL数据库,相关安装信息如下表所示,请在此环境基础上按照相关操作步骤安装Hive组件。
1. 将指定路径下的Hive安装包解压并更名;
2. 设置Hive环境变量;
3. 编辑Hive相关配置文件;
4. 初始化Hive元数据;
5. 启动并保存输出结果。
任务二:数据采集与数据预处理(20分)
1. 从指定招聘网站中抓取数据,提取有效数据项,并保存为json格式文件;
2. 设置post请求参数并将信息返回给变量response;
3. 将提取数据转化成json格式,并赋值变量;
4. 用with函数创建json文件,通过json方法,写入json数据;
5. 爬取的数据需要导入hadoop平台进行数据清洗与分析,在HDFS文件系统中创建文件夹,并将json文件上传到该文件夹下。
任务三:数据清洗与分析(25分)
1. 为便于数据分析与可视化,需要对爬取出的数据进行清洗,使用Java语言编写数据清洗的MapReduce程序;
2. 将清洗程序上传至hadoop,并对HDFS的原始数据进行清洗;
3. 将清洗后的数据加载到Hive数据仓库中;
4. 通过运行HQL命令完成数据分析统计;
5. 在hive中执行sql脚本,并查看表中大数据核心技能的出现次数。
任务四:数据可视化(20分)
为更好的将数据分析结果表达出来,需要对数据分析的结束进行可视化呈现,可视化呈现,本次数据可视化需要呈现三部分内容:
1. 按要求使用柱状图展示各城市招聘人数,并在前端显示。要求:
主标题:各地域招聘人数
副标题:(--招聘人数变化趋势)
横坐标:城市信息,纵坐标:招聘人数
输出柱状图
2.按要求使用折线图展示“大数据”相关职位招聘数量差异,并在前端显示。要求:
主标题:大数据相关职位分析
副标题:(--招聘数量变化趋势)
横坐标:岗位名称,纵坐标:岗位数量
输出折线图
3.通过雷达图展示各地平均薪资的情况。要求:
主标题:各地平均薪资
输出雷达图
任务五:完成分析报告(15分)
请结合数据分析结果回答以下问题:
1. 根据分析结果说明大数据岗位所需要的主要技能包含哪些,为什么(4分)
2. 根据分析结果说明各地大数据产业发展情况(4分)
3. 根据市场需求分析,大数据行业的人才培养方向有哪些,为什么(4分)
4. 请简述,今后大数据产业地域发展方向在哪里(3分)
5. 竞赛结果提交要求:
(一)文档要求
任务成果需拷贝至提供的U盘中。在U盘中以XX工位号建一个文件夹(例如01),将所有任务成果文档保存至该文件夹中。
(二)文档要求
竞赛提交的所有文档中不能出现参赛队信息和参赛选手信息,竞赛文档需要填写参赛队信息时以工位号代替(XX代表工位号)。