点播 大数据入门第一课 Hadoop基础知识与电商网站日志数据分析

课程时长 51小时10分钟

学习期限 12 个月 退款期限 30 天

市场价格 ¥288.00 会员价格 ¥230.00

难度级别 中级 学习人次 367 综合评分 4.2

内容实用 4.3 分

简洁易懂 4.2 分

逻辑清晰 4.2 分

  • 详情
  • 目录
  • 套餐3
  • 咨询3
  • 评价23

第1章 大数据概述

  • 1-1 课程导学 试听
    27分钟08秒
  • 1-2 ***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南) 试听
    15分钟42秒
  • 1-3 课程目录
    12分钟56秒
  • 1-4 从一个案例说起
    11分钟12秒
  • 1-5 什么是大数据以及大数据的4V特征
    17分钟31秒
  • 1-6 大数据带来的技术变革
    18分钟19秒
  • 1-7 大数据现存的模式
    14分钟15秒
  • 1-8 大数据的技术概念
    27分钟31秒
  • 1-9 大数据带来的挑战
    23分钟01秒
  • 1-10 如何对大数据进行存储和分析
    15分钟40秒
  • 1-11 大数据典型应用
    29分钟36秒

第2章 初识Hadoop

  • 2-1 课程目录
    27分钟38秒
  • 2-2 Hadoop概述
    10分钟40秒
  • 2-3 Hadoop核心组件之HDFS概述
    26分钟53秒
  • 2-4 Hadoop核心组件之MapReduce
    21分钟30秒
  • 2-5 Hadoop核心组件之YARN
    21分钟50秒
  • 2-6 Hadoop优势
    26分钟08秒
  • 2-7 Hadoop发展史
    20分钟50秒
  • 2-8 Hadoop生态圈
    29分钟34秒
  • 2-9 Hadoop发行版选型
    27分钟44秒
  • 2-10 OOTB环境的使用
    25分钟39秒

第3章 分布式文件系统HDFS

  • 3-1 HDFS概述
    26分钟50秒
  • 3-2 HDFS设计目标
    10分钟55秒
  • 3-3 HDFS架构详解
    21分钟32秒
  • 3-4 文件系统NameSpace详解
    28分钟09秒
  • 3-5 HDFS副本机制
    19分钟58秒
  • 3-6 本课程使用的Linux环境介绍
    28分钟11秒
  • 3-7 Hadoop部署前置介绍
    12分钟29秒
  • 3-8 JDK1.8部署详解
    26分钟06秒
  • 3-9 ssh无密码登陆部署详解
    12分钟31秒
  • 3-10 Hadoop安装目录详解及hadoop-env配置
    27分钟50秒
  • 3-11 HDFS格式化以及启动详解
    23分钟45秒
  • 3-12 HDFS常见文件之防火墙干扰
    22分钟04秒
  • 3-13 Hadoop停止集群以及如何单个进程启动
    25分钟38秒
  • 3-14 Hadoop命令行操作详解
    20分钟09秒
  • 3-15 深度剖析Hadoop文件的存储机制
    28分钟28秒
  • 3-16 HDFS API编程之开发环境搭建
    10分钟10秒
  • 3-17 HDFS API编程之第一个应用程序的开发
    22分钟28秒
  • 3-18 HDFS API编程之jUnit封装
    24分钟53秒
  • 3-19 HDFS API编程之查看HDFS文件内容
    24分钟19秒
  • 3-20 HDFS API编程之创建文件并写入内容
    12分钟31秒
  • 3-21 HDFS API编程之副本系数深度剖析
    14分钟15秒
  • 3-22 HDFS API编程之重命名
    25分钟08秒
  • 3-23 HDFS API编程之copyFromLocalFile
    10分钟02秒
  • 3-24 HDFS API编程之带进度的上传大文件
    10分钟40秒
  • 3-25 HDFS API编程之下载文件
    10分钟32秒
  • 3-26 HDFS API编程之列出文件夹下的所有内容
    18分钟02秒
  • 3-27 HDFS API编程之递归列出文件夹下的所有文件
    17分钟29秒
  • 3-28 HDFS API编程之查看文件块信息
    16分钟35秒
  • 3-29 HDFS API编程之删除文件
    26分钟25秒
  • 3-30 HDFS项目实战之需求分析
    27分钟23秒
  • 3-31 HDFS项目实战之代码框架编写
    26分钟49秒
  • 3-32 HDFS项目实战之自定义上下文
    26分钟41秒
  • 3-33 HDFS项目实战之自定义处理类实现
    28分钟31秒
  • 3-34 HDFS项目实战之功能实现
    17分钟14秒
  • 3-35 HDFS项目实战之使用自定义配置文件重构代码
    18分钟04秒
  • 3-36 HDFS项目实战之使用反射创建自定义Mapper对象
    23分钟16秒
  • 3-37 HDFS项目实战之可插拔的业务逻辑处理
    15分钟17秒
  • 3-38 HDFS Replica Placement Policy
    15分钟23秒
  • 3-39 HDFS写数据流程图解
    17分钟09秒
  • 3-40 HDFS读数据流程图解
    14分钟25秒
  • 3-41 HDFS Checkpoint详解
    12分钟47秒
  • 3-42 HDFS SaveMode
    14分钟32秒

第4章 分布式计算框架MapReduce

  • 4-1 课程目录 试听
    10分钟36秒
  • 4-2 MapReduce概述
    26分钟53秒
  • 4-3 MapReduce编程模型详解
    13分钟05秒
  • 4-4 MapReduce编程模型核心概念详解
    24分钟33秒
  • 4-5 词频统计之自定义Mapper实现
    14分钟37秒
  • 4-6 词频统计之自定义Reducer实现
    21分钟53秒
  • 4-7 词频统计之自定义Driver类实现
    21分钟05秒
  • 4-8 词频统计之本地方式运行
    28分钟18秒
  • 4-9 词频统计之通过Debug方式进一步了解偏移量以及重构代码
    18分钟05秒
  • 4-10 词频统计升级之Combiner操作
    28分钟37秒
  • 4-11 流量统计实战之需求
    22分钟51秒
  • 4-12 流量统计实战之自定义复杂数据类型
    20分钟41秒
  • 4-13 流量统计实战之自定义Mapper类
    13分钟05秒
  • 4-14 流量统计实战之自定义Reducer实现
    11分钟39秒
  • 4-15 流量统计实战之Driver开发
    19分钟48秒
  • 4-16 流量统计实战之代码重构及NullWritable的使用
    19分钟23秒
  • 4-17 流量统计实战升级之自定义Partitioner
    15分钟03秒

第5章 资源调度框架YARN

  • 5-1 课程目录
    25分钟45秒
  • 5-2 YARN产生背景
    27分钟46秒
  • 5-3 YARN概述
    10分钟08秒
  • 5-4 YARN架构详解
    13分钟33秒
  • 5-5 YARN执行流程
    21分钟32秒
  • 5-6 YARN环境部署
    12分钟32秒
  • 5-7 提交example案例到YARN上运行
    23分钟31秒
  • 5-8 提交流量统计案例到YARN上运行
    19分钟47秒

第6章 电商项目实战Hadoop实现

  • 6-1 课程目录
    10分钟30秒
  • 6-2 用户行为日志概述
    22分钟40秒
  • 6-3 为什么要记录用户行为日志
    26分钟26秒
  • 6-4 日志内容介绍
    20分钟55秒
  • 6-5 用户行为日志分析的意义所在
    29分钟17秒
  • 6-6 电商常用术语
    28分钟37秒
  • 6-7 项目需求描述
    19分钟39秒
  • 6-8 数据处理流程及技术架构
    11分钟57秒
  • 6-9 浏览量统计功能实现
    19分钟41秒
  • 6-10 省份浏览量统计之IP库解析
    12分钟31秒
  • 6-11 省份浏览量统计之日志解析
    10分钟48秒
  • 6-12 省份浏览量统计之功能实现
    18分钟08秒
  • 6-13 页面浏览量统计之页面编号获取
    22分钟19秒
  • 6-14 页面浏览量统计之功能实现
    21分钟12秒
  • 6-15 数据处理过程中ETL的重要性
    24分钟13秒
  • 6-16 原始日志ETL操作
    10分钟06秒
  • 6-17 浏览量统计功能升级
    28分钟59秒
  • 6-18 省份浏览量统计功能升级
    15分钟11秒
  • 6-19 页面浏览量统计功能升级思路
    28分钟04秒
  • 6-20 打包到服务器上运行
    17分钟22秒
  • 6-21 项目扩展
    17分钟25秒

第7章 数据仓库Hive

  • 7-1 课程目录
    11分钟22秒
  • 7-2 Hive产生背景
    10分钟33秒
  • 7-3 Hive是什么
    13分钟38秒
  • 7-4 为什么要使用Hive
    20分钟52秒
  • 7-5 Hive在Hadoop生态圈中的位置
    22分钟33秒
  • 7-6 Hive体系架构
    18分钟23秒
  • 7-7 Hive部署架构
    13分钟35秒
  • 7-8 Hive与RDBMS的区别
    16分钟16秒
  • 7-9 Hive部署
    26分钟29秒
  • 7-10 Hive快速入门
    19分钟14秒
  • 7-11 Hive DDL之数据库操作
    24分钟53秒
  • 7-12 Hive DDL之表操作
    13分钟34秒
  • 7-13 Hive DML之加载和导出数据
    19分钟24秒
  • 7-14 Hive QL基本统计
    13分钟42秒
  • 7-15 Hive QL之聚合函数
    24分钟20秒
  • 7-16 Hive QL之分组函数
    14分钟12秒
  • 7-17 Hive QL之join的使用
    12分钟10秒
  • 7-18 Hive QL执行计划
    13分钟08秒

第8章 电商项目实战Hive实现

  • 8-1 课程目录
    22分钟11秒
  • 8-2 外部表在Hive中的使用
    18分钟18秒
  • 8-3 track_info分区表的创建
    26分钟37秒
  • 8-4 将ETL的数据加载到Hive表
    24分钟13秒
  • 8-5 使用Hive完成统计分析功能
    25分钟08秒
  • 8-6 Hive实现项目的方便性体现
    27分钟26秒

第9章 Hadoop分布式集群搭建

  • 9-1 课程目录
    26分钟15秒
  • 9-2 Hadoop集群规划
    25分钟55秒
  • 9-3 前置条件安装
    25分钟10秒
  • 9-4 JDK安装
    10分钟29秒
  • 9-5 Hadoop集群部署
    20分钟20秒
  • 9-6 提交作业到Hadoop集群上运行
    22分钟23秒
  • 9-7 课程总结
    15分钟49秒

第10章 (彩蛋番外篇)Join在MapReduce中的实现

  • 10-1 Join概述
    25分钟23秒
  • 10-2 ReduceJoin流程分析
    19分钟07秒
  • 10-3 ReduceJoin功能实现
    22分钟34秒
  • 10-4 MapJoin实现原理
    21分钟01秒
  • 10-5 MapJoin功能实现
    29分钟45秒

第11章 (讨论群内直播内容分享)Hadoop小问题剖析

  • 11-1 小文件问题
    22分钟48秒
  • 11-2 什么是小文件
    27分钟37秒
  • 11-3 小文件怎么产生的
    13分钟35秒
  • 11-4 小文件解决方案(上)
    15分钟19秒
  • 11-5 小文件解决方案(下)
    16分钟48秒
  • 11-6 Hadoop真的凉了吗
    19分钟18秒

第12章 (讨论群内直播内容分享)Hadoop的特性在生产上的使用

  • 12-1 文件归档及透明访问
    29分钟13秒
  • 12-2 distcp及scp
    11分钟12秒
  • 12-3 回收站
    10分钟17秒
367
23
3
0