Hadoop大数据课程简介


课程定位

本课程围绕Hadoop生态体系,系统讲解大数据核心技术(HDFS、MapReduce、YARN、Hive),结合企业级实战案例与数据可视化工具(FineBI),帮助学员从零掌握大数据存储、计算、分析全流程,培养大数据开发与数据分析核心能力。


课程模块与核心内容

1. 大数据导论与Linux基础

  • 大数据入门:数据分析流程、分布式与集群概念、大数据时代挑战与机遇。
  • Linux实战
    • VMware虚拟机部署、CentOS系统操作、FinalShell远程连接。
    • 文件系统管理(ls/cd/tar)、进程监控(top/ps)、vim编辑器使用。

2. Hadoop核心组件:HDFS与MapReduce

  • Hadoop基础
    • Hadoop发展历程、架构特性、集群部署(配置文件、环境变量、初始化)。
    • HDFS核心原理:写数据流程(Pipeline、ACK机制)、副本策略、Shell操作(文件上传/下载/删除)。
  • MapReduce编程
    • 分治思想、Map与Reduce阶段详解、Shuffle机制优化。
    • 实战案例:WordCount词频统计、圆周率计算。

3. Hadoop YARN资源调度

  • YARN架构:ResourceManager、NodeManager、ApplicationMaster角色解析。
  • 任务调度:FIFO/Capacity/Fair调度策略、程序提交与资源交互流程。

4. 数据仓库与Hive开发

  • Hive基础
    • 数据仓库特征(面向主题、集成性)、Hive与Hadoop集成。
    • 元数据管理(Metastore)、远程模式部署、客户端工具(DataGrip)连接。
  • Hive SQL
    • 建库建表(数据类型、分隔符指定)、数据加载(LOAD/INSERT)。
    • 复杂查询:聚合(GROUP BY)、关联(JOIN)、排序(ORDER BY)、窗口函数。

5. Hive高级应用与函数

  • DML操作:ETL数据清洗、条件过滤(WHERE/HAVING)、结果导出。
  • 内置函数:字符串处理、日期函数、聚合函数(SUM/AVG)。

6. 综合实战:陌陌聊天数据分析

  • 全流程实战
    • 需求分析:用户活跃时段统计、消息量趋势、关键词提取。
    • Hive数仓构建:ETL清洗、指标计算(SQL编写与优化)。
    • 数据可视化:FineBI配置(数据源连接、图表设计)、报表输出(地图、雷达图、词云)。

课程特色

  1. 生态全覆盖:Hadoop(HDFS/YARN/MapReduce)+ Hive + 可视化工具,构建完整技术栈。
  2. 实战驱动
    • 从集群部署到SQL开发,全程命令行与IDE工具结合。
    • 企业级案例(陌陌数据分析)还原真实业务场景。
  3. 工具链整合
    • 开发工具:DataGrip、FinalShell、FineBI。
    • 环境部署:VMware虚拟化、CentOS系统、MySQL元数据库。
  4. 原理与实操并重
    • 深入HDFS写流程、MapReduce Shuffle机制、YARN调度策略。
    • 结合Hive数仓设计,培养数据建模能力。

适合人群

  • 零基础转型:无大数据经验,希望系统学习Hadoop生态的技术人员。
  • 数据分析师:提升海量数据处理与SQL复杂查询能力。
  • 开发工程师:掌握分布式计算框架底层原理,优化企业级应用。

学习收获

  • 硬技能
    • 熟练部署Hadoop集群、编写MapReduce程序、开发Hive数仓。
    • 掌握FineBI数据可视化,输出专业级分析报表。
  • 软实力
    • 理解分布式系统设计思想,具备大数据架构思维。
    • 独立完成从数据采集、存储、计算到展示的全链路项目。

通过本课程,学员将具备Hadoop全栈开发能力,可胜任大数据工程师、ETL开发工程师、数据分析师等岗位,从容应对企业级数据挑战。

课程目录

+—Hadoop-视频
| +—01_大数据导论与Linux基础
| | 00-Hadoop导学.mp4
| | 01-课程内容大纲与学习目标.mp4
| | 02-数据分析与企业数据分析方向.mp4
| | 03-数据分析基本流程步骤.mp4
| | 04-大数据时代.mp4
| | 05-分布式与集群概念.mp4
| | 06-Linux操作系统概述.mp4
| | 07-VMware虚拟机概念与安装.mp4
| | 08-Centos操作系统的虚拟机导入.mp4
| | 09-VMware虚拟机常规使用、快照.mp4
| | 10-FinalShell介绍使用.mp4
| | 11-Linux文件系统基础知识.mp4
| | 12-Linux常用操作命令(1)-ls、cd、mkdir、rm.mp4
| | 13-Linux常用操作命令(2)-mv、cp、cat、tail、管道、重定向.mp4
| | 14-Linux常用操作命令(3)-tar命令解压缩包.mp4
| | 15-Linux常用系统命令–时间日期、内存磁盘使用率、进程查看.mp4
| | 16-vim编辑器介绍、3种工作模式.mp4
| | 17-vim基本操作命令.mp4
| |
| +—02_Apache Hadoop、HDFS
| | 01-课程内容大纲-学习目标.mp4
| | 02-Apache Hadoop介绍、发展简史、现状.mp4
| | 03-Apache Hadoop特性优点、国内外应用.mp4
| | 04-Apache Hadoop发行版本、架构变迁.mp4
| | 05-Apache Hadoop安装部署–集群组成介绍.mp4
| | 06-Apache Hadoop安装部署–服务器基础环境设置.mp4
| | 07-Apache Hadoop安装部署–安装包结构.mp4
| | 08-Apache Hadoop安装部署–修改配置文件、同步安装包与环境变量.mp4
| | 09-Apache Hadoop安装部署–format初始化操作.mp4
| | 10-Apache Hadoop安装部署–集群启停命令、Web UI页面.mp4
| | 11-Apache Hadoop安装部署–初体验.mp4
| | 12-传统文件系统在大数据时代面临的挑战.mp4
| | 13-场景互动:分布式存储系统的核心属性及功能作用.mp4
| | 14-HDFS简介、设计目标与应用场景.mp4
| | 15-HDFS重要特性解读.mp4
| | 16-HDFS shell命令行解释说明.mp4
| | 17-HDFS shell命令行常用操作.mp4
| | 18-HDFS工作流程与机制–各角色职责介绍与梳理.mp4
| | 19-HDFS工作流程与机制–写数据流程–pipeline、ack、副本策略.mp4
| | 20-HDFS工作流程与机制–写数据流程–梳理.mp4
| |
| +—03_Hadoop MapReduce与Hadoop YARN
| | 01-课程内容-大纲-学习目标.mp4
| | 02-理解先分再合、分而治之的思想.mp4
| | 03-Hadoop团队针对MapReduce的设计构思.mp4
| | 04-Hadoop MapReduce介绍、阶段划分与进程组成.mp4
| | 05-Hadoop MapReduce官方示例–圆周率PI评估.mp4
| | 06-Hadoop MapReduce官方示例–WordCount单词统计.mp4
| | 07-Hadoop MapReduce–map阶段执行过程.mp4
| | 08-Hadoop MapReduce–reduce阶段执行过程.mp4
| | 09-Hadoop MapReduce–shuffle机制.mp4
| | 10-Hadoop YARN–功能介绍–资源管理、任务调度.avi.mp4
| | 11-Hadoop YARN–架构图、3大组件介绍.mp4
| | 12-Hadoop YARN–程序提交YARN集群交互流程.mp4
| | 13-Hadoop YARN–资源调度器scheduler和调度策略.mp4
| |
| +—04_数据仓库基础与Apache Hive入门
| | 01-课程内容大纲学习目标.mp4
| | 02-数据仓库概念与起源发展由来.mp4
| | 03-数据仓库主要特征–面向主题、集成、非易失、时变.mp4
| | 04-数仓主流开发语言–SQL介绍.mp4
| | 05-Apache hive软件介绍与Hadoop关系.mp4
| | 06-场景设计–Hive功能模拟实现底层猜想.mp4
| | 07-Apache hive–架构图、各组件功能.mp4
| | 08-Apache hive安装部署–metadata与metastore、远程模式介绍.mp4
| | 09-Apache hive安装部署–与Hadoop整合、MySQL安装.mp4
| | 10-Apache hive安装部署–配置文件修改编辑.mp4
| | 11-Apache hive安装部署–metastore服务启动方式.mp4
| | 12-Apache hive–新老客户端使用与hiveserver2服务.mp4
| | 13-Apache hive–DataGrip连接Hiveserver2.mp4
| | 14-Apache hive–数据库与建库、切换库操作.mp4
| | 15-Apache hive–表与建表sql语句–数据类型、分隔符指定语法.mp4
| | 16-Apache hive–表与建表sql语句–默认分隔符使用.mp4
| | 17-Apache hive–常见的show语法.mp4
| | 18-Apache hive–注释comment中文乱码解决.mp4
| |
| +—05_Apache Hive DML语句与函数使用
| | 01-课程内容大纲与学习的目标.mp4
| | 02-Hive SQL-DML-Load加载数据操作.mp4
| | 03-Hive SQL-DML-Insert插入数据.mp4
| | 04-Hive SQL-DML-Select查询–语法树与学习环境准备.mp4
| | 05-Hive SQL-DML-Select查询–列表达式与distinct去重.mp4
| | 06-Hive SQL-DML-Select查询–Where条件过滤.mp4
| | 07-Hive SQL-DML-Select查询–聚合操作aggregate.mp4
| | 08-Hive SQL-DML-Select查询–Group by分组及语法限制.mp4
| | 09-Hive SQL-DML-Select查询–Having过滤操作.mp4
| | 10-Hive SQL-DML-Select查询–Order by排序.mp4
| | 11-Hive SQL-DML-Select查询–Limit限制语法.mp4
| | 12-Hive SQL-DML-Select查询–执行顺序梳理.mp4
| | 13-Hive SQL Join关联查询.mp4
| | 14-Hive 函数概述及分类标准.mp4
| | 15-Hive 常用的内置函数.mp4
| |
| \—06_Hadoop生态综合案例:陌陌聊天数据分析
| 01-课程内容的大纲与学习目标.mp4
| 02-陌陌聊天数据分析案例需求.mp4
| 03-基于Hive数仓实现需求开发–建库建表与加载数据.mp4
| 04-基于Hive数仓实现需求开发–ETL需求分析与技术支撑.mp4
| 05-基于Hive数仓实现需求开发–ETL SQL实现.mp4
| 06-基于Hive数仓实现需求开发–sql编写思路与指标计算part1.mp4
| 07-基于Hive数仓实现需求开发–指标计算part2.mp4
| 08-基于Hive数仓实现需求开发–指标计算part3.mp4
| 09-基于FineBI实现可视化报表–FineBI介绍与安装.mp4
| 10-基于FineBI实现可视化报表–配置数据源及数据准备.mp4
| 11-基于FineBI实现可视化报表–标题配置与文本框使用.mp4
| 12-基于FineBI实现可视化报表–地图、雷达图、柱状图构建.mp4
| 13-基于FineBI实现可视化报表–饼图、词云、趋势图构建.mp4
|
\—Hadoop-资料
01_大数据导论与Linux基础.rar
02_Apache Hadoop、HDFS.rar
03_Hadoop MapReduce与Hadoop YARN.rar
04_数据仓库基础与Apache Hive入门.rar
05_Apache Hive DML语句与函数使用.rar
06_Hadoop生态综合案例:陌陌聊天数据分析.rar

 

声明:内容搜集于网络,如有侵权,请联系删除