rgb</p>1.2 大数据平台架构
# Z# v! n7 d9 c2 A* f% z0 q
1.2.1 数据获取
- ]2 U$ a# {; j& j: B/ Q& H4 \. N1.2.2 数据存储
) H; ]8 ]$ Z0 V$ N) G1.2.3 数据处理
, t+ w, R% {/ a$ |0 K
1.2.4 交互式分析
' o; i# |' m0 c8 K; |' S
1.2.5 机器学习与数据挖掘
$ E# m T0 \& M9 d- M, I6 m0 U1 n
1.2.6 资源管理
4 ^6 g. @- c& Q3 q
1.3 大数据工程师的技能树
% [7 @4 a) c5 x/ g+ Z8 P1.3.1 大数据主流开发语言
E8 \; @' Q: }& l# c2 e
1.3.2 大数据平台的构建
5 W" J" W4 _0 }6 c4 }& G5 F1.3.3 大数据采集
9 `! B7 b* W' W& p! b8 q/ e2 ~1.3.4 大数据存储与交换
' ?* p' E( j! l }# a1.3.5 大数据离线计算
! m# F# z# ?8 F; w; a" V. R1.3.6 大数据实时计算
( p; [+ b. G$ \' ?( w7 @# ^% }1.4 大数据项目需求分析与设计
7 U: X9 v! U0 \2 t4 Z1.4.1 项目需求分析
/ \/ h- ~" L% `* H1.4.2 系统架构设计
* C& O/ ]; S/ H& y1.4.3 离线和实时计算数据流程设计
+ O' i7 v; H# J( X1.4.4 大数据平台规划
: j" v* L8 V3 |( {5 D1.5 本章小结
9 }( N) W$ z$ A; ?1 s7 e0 Q: p第2章 搭建IDEA开发环境及Linux虚拟机
) ]3 v6 x0 { [+ ]% g2.1 搭建IDEA开发环境
, s/ Z) s9 g) r7 X; t3 ?8 z* d2.1.1 JDK的安装与配置
; b5 a: L" Y0 ~2.1.2 Maven的安装与配置
7 z9 y; N+ }* V" E% M7 C' C- Q' ?: {2.1.3 IDEA的安装与配置
- b9 e+ T4 Q8 l4 X# s
2.1.4 使用IDEA构建Maven项目
' T; G/ K, O3 G9 P; ` h+ A. X
2.2 搭建Linux虚拟机
4 O2 d8 S9 o- c. ]2.2.1 安装Linux系统
) X- e! J: F: D/ E2 p
2.2.2 配置Linux静态IP
* n. T8 W J$ O6 O
2.2.3 Linux主机名和IP映射
3 X3 j. P$ v7 j# k2.2.4 关闭Linux防火墙
+ g8 Z5 B ?" c4 C+ w% ]2.2.5 创建Linux用户和用户组
- r- z8 M5 K; m: o
2.2.6 Linux SSH免密登录
% y- W# }" v8 [0 G+ k. l8 N2.3 本章小结 java8.com
# ^* ]/ l: s! k3 B* f2 G第3章 基于Hadoop构建大数据平台
+ E! Q* r, v# i% P8 m; \# A6 s3.1 Zookeeper分布式协调服务
# A9 I$ Z/ E! g R; b) Z- b
3.1.1 Zookeeper架构设计及原理
! w9 u1 Q. Z6 b! U" r
3.1.2 Zookeeper集群安装前的准备工作
* C" _! Q8 h( l+ W( Z+ E( }5 z& A
3.1.3 Zookeeper集群的安装部署
! W. S8 I9 {" Q9 T' d q
3.1.4 Zookeeper shell的操作
8 r5 i# @ s, i$ C/ C3.2 HDFS分布式文件系统
/ w$ o* _7 V& o% Z6 j
3.2.1 HDFS架构设计及原理
5 R/ }* u8 z; ~) I3.2.2 HDFS的高可用(HA)
! x6 j R% k: r: w: `3.2.3 HDFS联邦机制
- d/ L1 y, D- g' }3.3 YARN资源管理系统
* T a8 H- F* a/ a' y% l
3.3.1 YARN架构设计及原理
3 Y* L# k/ _ b: F0 ?- u3.3.2 MapReduce on YARN工作流程
% ^) K* D/ N+ g& x! @3.3.3 YARN的容错性
( l" f; ]! J8 R3 X( v' W! a
3.3.4 YARN的高可用(HA)
2 H8 b" f+ ~# o6 H6 R5 G: ?
3.3.5 YARN的调度器及使用
C5 t9 H& q; D' V0 J3 j. q7 N
3.4 Hadoop分布式集群的构建
& n4 C. f! M9 l, J
3.4.1 HDFS分布式集群的构建
9 r; N5 M' b. n4 w8 O3.4.2 YARN分布式集群的构建
{6 H$ `: v& b
3.4.3 Hadoop集群运行测试
9 j2 A: ?. i! S2 |7 m3.4.4 Hadoop集群调优
4 C4 a2 b; p3 a: _" S
3.5 MapReduce分布式计算框架
9 n4 _6 y; _; ?
3.5.1 MapReduce概述
1 u) Q4 L1 H" ]; X) ` u3.5.2 MapReduce编程模型
2 W% f. O" \+ o4 _7 n' M: a
3.5.3 MapReduce应用示例
0 Y! a& S: n; O2 k" ?% U
3.5.4 WordCount代码实现
8 L& ^6 z- S- K, ?2 }3.6 本章小结
! ?0 f, N* v+ i第4章 基于HBase和Kafka构建海量数据存储与交换系统
0 B" A% \# l# g2 o2 ^& k+ S5 T$ I
4.1 构建HBase分布式实时数据库
, E" O& Q8 ^! B* y
4.1.1 HBase概述
[. u5 E- k9 l
4.1.2 HBase架构设计
5 R% o4 b0 u0 T
4.1.3 HBase分布式集群的构建
) @( F$ \" m- [ m" l& N
4.1.4 HBase性能调优
* t# i% o% r9 r, f0 W- Q9 o9 T
4.1.5 HBase新闻业务表建模
- h. P. x5 r4 u1 b; B2 `
4.2 搭建Kafka分布式消息系统
" O2 F+ ~1 Z9 u5 K
4.2.1 Kafka概述
' g; H% C0 N9 V/ O) `) h
4.2.2 Kafka架构设计
3 B) ?* m8 K. k4.2.3 Kafka分布式集群的构建
, ] h ]$ J+ Y* F2 Y
4.2.4 Kafka集群监控
- w& t9 j9 ?" L! S7 r+ |4.3 本章小结
# E/ H0 f/ Q Q# K! Y) W第5章 用户行为离线分析——构建日志采集和分析平台
9 d w" ~: R/ S; O+ y
5.1 搭建Flume日志采集系统
( A) \5 J" |0 P# Y5.1.1 Flume概述
* ^/ ?( u% e7 C1 q6 R3 J5.1.2 Flume架构设计
6 _. ]* z% M3 ^4 {2 X) Y6 ]9 s5.1.3 Flume环境的搭建
+ g5 ]2 J% I- d, x
5.1.4 构建Flume集群
, R) @5 o8 f% d& z+ C
5.2 使用Flume采集用户行为数据
' p- \! e: {& Y7 B* I3 J
5.2.1 Flume与Kafka集成
; v! b. }* T S
5.2.2 Flume与HBase集成
" m7 T+ X$ S# L# j4 c5.2.3 Flume与Kafka、HBase集成
& l; l' |0 |2 X- W5.3 基于Hive的离线大数据分析
) K9 ?& L) S. i' @4 w, j& [2 k P5.3.1 Hive概述
8 y* a, y3 I9 B+ [- R6 m) c6 U
5.3.2 Hive架构设计
- l, N) `5 S3 P
5.3.3 Hive的安装部署
+ X8 `5 m( O* q4 ^! L5.3.4 Hive在大数据仓库中的应用
$ f: U9 i$ r# s# E/ q5.3.5 Hive与HBase集成
5 l+ G/ _ L4 {) ^0 p5 `: N2 n
5.4 基于Hive的用户行为数据离线分析
" v* p+ L B0 ]. r* M W9 h
5.4.1 离线项目架构设计
# `: Q5 O! H3 s% B$ F" G! z5.4.2 用户行为离线分析
7 `4 `. n0 K1 s* `' e7 p+ D/ z5 B5.5 本章小结
9 @ [$ ^) h/ O* t; X+ A
第6章 基于Spark的用户行为实时分析
7 V5 e [* s: J6.1 Spark快速入门
- R3 \+ f8 Q1 S2 t1 n9 b
6.1.1 Spark概述
, z$ w. r. b4 X9 S I) L0 z- _
6.1.2 Spark的最简安装
" w$ ]( v, l# b$ w" H: b
6.1.3 Spark实现WordCount
) p c: \% U; O8 S4 b C- B4 z6.2 Spark Core的核心功能
8 q/ { O0 N3 ?8 D' V; Q% e
6.2.1 Spark架构的原理
, S3 |6 y% z8 u h x
6.2.2 弹性分布式数据集RDD
; l4 p) z3 B8 o, Y
6.2.3 Spark算子
' c8 K. r* R0 N1 M8 V5 ?
6.2.4 Pair RDD及算子
- G9 W+ p5 P3 V$ s, A$ ~3 T6.3 Spark分布式集群的构建
' l% Y4 f: _. d1 n
6.3.1 Spark的运行模式
2 I' K* N9 {, i! v$ M- ?
6.3.2 Standalone模式集群的构建
+ H& m) W( a V7 b# o; O# V% L5 r6.3.3 Spark on YARN模式集群的构建
" t1 [8 |; n: U/ `2 o
6.4 基于Spark Streaming的新闻项目实时分析
- K1 d) j% B; Y$ C
6.4.1 Spark Streaming概述
* E& g$ t! ?3 b
6.4.2 Spark Streaming的运行原理
( b8 ?# Y h/ a' O$ i; p6.4.3 Spark Streaming编程模型
2 u' d$ P+ G1 x+ M
6.4.4 Spark Streaming实时分析用户行为
( u+ h" z& T- h6.5 基于Spark SQL的新闻项目离线分析
5 z8 r: f2 @; u# x1 j6.5.1 Spark SQL架构的原理
8 N8 k3 c. B0 e, N
6.5.2 Spark SQL与Hive、MySQL、HBase集成
4 D8 u: E0 m- j: Q8 G' A
6.5.3 Spark SQL用户行为离线分析
& q7 s- {5 g! a1 S% B
6.6 基于Spark Structured Streaming的新闻项目实时分析
; i5 g; N' o- V) I4 J6.6.1 Structured Streaming概述
5 j+ y5 t6 \8 O8 Z) m" D8 |6.6.2 Structured Streaming编程模型
; B, g1 }& y2 A( U7 z$ U9 G
6.6.3 基于Structured Streaming的用户行为实时分析
2 m$ x0 K9 w3 Y, Z/ }3 q
6.7 本章小结
) Z4 X. x3 w4 A% V2 Z, m3 T第7章 基于Flink的用户行为实时分析
, ?5 f' ^) P: P( g( g1 D# I0 i7.1 Flink快速入门
: {; ]- E5 X) w7.1.1 Flink概述
2 t- {+ Y" J' p) V/ Q7.1.2 Flink的最简安装
8 ?& U! \5 ` c/ `* G5 Z* X8 t7.1.3 Flink实现WordCount
: q% @3 M$ u b: l0 C ?& K% j" q' s# E7.2 Flink分布式集群的构建
/ @6 e, v' _- O6 }* N5 o7.2.1 Flink的运行模式
8 Z2 d; h3 ^: |+ Z. r' S7.2.2 Flink Standalone模式集群的构建
. n$ s# A( v2 I0 x1 V7.2.3 Flink on YARN模式集群的构建
5 X$ x$ m) a- ?. l
7.3 基于Flink DataStream的新闻项目实时分析
! z% _, G+ f* u8 n* g2 \7.3.1 Flink DataStream概述
1 j! z1 n! x0 ?
7.3.2 Flink DataStream编程模型
3 N( ?* ]4 s, u( \5 e7 q
7.3.3 Flink DataStream用户行为实时分析
6 i0 Q$ q# A; i5 z) G' P. E5 F5 j6 Y6 E
7.4 基于Flink DataSet的新闻项目离线分析
7 v A8 ?, ?( q% H4 s5 ^7.4.1 Flink DataSet的运行原理
: c" E3 I0 i% |; Y* U
7.4.2 Flink DataSet编程模型
/ u! s8 u7 a T7.4.3 Flink DataSet用户行为离线分析
& p3 E3 l# N4 }& _% P& s1 H
7.5 本章小结
, s$ t9 V6 _0 W- F# W4 v* f第8章 用户行为数据可视化
8 f" n7 }$ X7 s8 O4 N" _# J8.1 构建Java Web系统查询用户行为
* W( m' j6 i1 P" j0 \
8.1.1 基于Java Web的系统架构
2 V$ H9 ?8 W6 y' W5 o
8.1.2 构建并部署Java Web项目
; C3 ^) {% ]4 [4 s% Q3 u8.1.3 用户行为查询代码开发
: `8 d, n3 e$ U
8.2 用户行为数据展示与分析
0 @, _. u% j5 @; D1 K8.2.1 项目打包发布
+ i0 T* v3 M) R) n" F
8.2.2 项目整体联调
8 P: \7 V! f; F4 l( `+ c7 Z
8.2.3 数据大屏展示与用户行为分析
: b7 J6 I( V1 ]9 @- U* ]
8.3 本章小结
% z0 V+ ^ p0 Q! D$ y