|
Java电子书:图解Spark:核心技术与案例实战 格式 pdf 电子书 PDF 电子书 Java吧 java8.com
7 U7 s% H4 h c
$ R3 S: N! N+ r" Z9 A- ?% h {6 h4 W9 H
编号:mudaima-P0303【Java吧 java8.com】$ o; _) a5 C F0 `7 A/ F2 f3 ^
7 ?, n' z( N; r$ Q5 W6 u% S" F- B8 u, e7 ]: i+ M
' n$ q# D B+ S+ } r
Java电子书目录:第1章 Spark及其生态圈概述2 M8 e$ y9 H# Z/ f
1.1 Spark简介7 s r# c+ ]- a n- v8 e1 ^
1.1.1 什么是Spark2 D0 U2 ], A) f5 f+ ]
1.1.2 Spark与MapReduce比较
# A/ g9 c0 C4 R1.1.3 Spark的演进路线图/ R; d! R+ S5 } M
1.2 Spark生态系统5 t! _9 I) o% L) q+ V
1.2.1 Spark Core
& I4 E! W) L2 w4 H* B1.2.2 Spark Streaming o1 D5 P% g- {
1.2.3 Spark SQL. E: d! `+ k- M' {+ u
1.2.4 BlinkDB
* \% c: @, B! G8 Z1.2.5 MLBase/MLlib) g4 _, w# L- ?& [& b
1.2.6 GraphX( l. g f1 P5 [+ n- {2 h$ a
1.2.7 SparkR& u, X" y1 ~* w5 P
1.2.8 Alluxio
{6 f5 u+ s U6 q4 }( k# f! T1.3 小结
' V0 p3 o# j8 \0 w' l& E第2章 搭建Spark实战环境
" ^1 ~' L D4 `% }$ s2.1 基础环境搭建' c* m# L8 b0 _" o7 A
2.1.1 搭建集群样板机/ [4 r2 _: v/ `2 l7 n: P, b
2.1.2 配置集群环境' a6 P% D5 J, @* T7 \% z
2.2 编译Spark源代码! E* c5 T1 Q5 \ m8 k1 B2 c7 ~: Q
2.2.1 配置Spark编译环境" {/ p* J! m6 ~9 S, j
2.2.2 使用Maven编译Spark
7 u; ^9 w( q% C) b& `9 s2.2.3 使用SBT编译Spark
; z! E) _% o5 R3 ?2.2.4 生成Spark部署包
7 w& y1 v# ]) M7 h+ j2.3 搭建Spark运行集群$ N5 K7 s: M: S) y3 B! {# ?# s
2.3.1 修改配置文件4 p) s: g# {! @
2.3.2 启动Spark: V2 t5 K3 W! g2 O: o* N! v
2.3.3 验证启动
( }3 q7 ~ I0 J3 q. }/ F2.3.4 个实例; F+ ^& z- T- v2 o7 g
2.4 搭建Spark实战开发环境
5 g. M( u% Y! u/ n2.4.1 CentOS中部署IDEA! a6 [! ^' j. _" d
2.4.2 使用IDEA开发程序: |# r' @+ k( g* D' n# v7 q' D
2.4.3 使用IDEA阅读源代码
) ^5 C4 a& o6 D! I8 t2.5 小结
: n- j0 H4 a2 p; D. b/ f0 F( M; ^' z( L9 M* u j6 u; ^0 A/ Z
第二篇 核心篇. w0 \ h8 ?2 k% [; w, g+ y
第3章 Spark编程模型
4 s4 y7 A' m+ E7 s3.1 RDD概述
* ]0 n; G" {. I3.1.1 背景4 @% O- h7 ^ R) N1 p+ ^
3.1.2 RDD简介 D! G* ?. }( \, q6 r7 F/ y
3.1.3 RDD的类型
% G, X5 T5 [' Z0 S- f9 W3.2 RDD的实现
- w( Q$ V9 [+ b- D% L( ~3.2.1 作业调度: L- ^* u' M. c& G
3.2.2 解析器集成' N8 @: r' {" P. Q$ ~. ]
3.2.3 内存管理# s$ ]. O: ~ \( ^
3.2.4 检查点支持0 ]. c: H$ b3 g( s9 b
3.2.5 多用户管理
9 }1 u3 _# b1 J3.3 编程接口
0 p4 }/ l6 m H+ s. k" E; N/ n2 i3.3.1 RDD分区(Partitions)
+ l! e e; U7 z3.3.2 RDD位置(PreferredLocations)- z8 B9 O5 G |
3.3.3 RDD依赖关系(Dependencies)
2 i9 }8 F, C3 i8 d: Z3.3.4 RDD分区计算(Iterator)
; ~5 e. t( i4 x3.3.5 RDD分区函数(Partitioner)3 g& L" _% t; W) T
3.4 创建操作 `4 Q1 O+ Q1 i: C. D
3.4.1 并行化集合创建操作: f6 B& z) p/ D4 }
3.4.2 外部存储创建操作
% g2 ]3 u( D- w6 d4 g3.5 转换操作
{' {3 y# v$ ]( d( d! I3.5.1 基础转换操作4 n7 S: k# p3 ?, x$ D% _0 V
3.5.2 键值转换操作% f+ b, Z) B$ w; ?# K
3.6 控制操作1 N! P7 }% N! R V5 x
3.7 行动操作
, N, i6 Y% y( E2 W& P* K. u* |4 T( y8 Y3.7.1 集合标量行动操作9 L% F3 T& E0 X9 F$ P7 c, W
3.7.2 存储行动操作% L$ ^3 o! h h! u* W* T" z
3.8 小结
# u+ T2 _7 R1 J+ A第4章 Spark核心原理! _4 G0 y# J0 R) e' w) o( h
4.1 消息通信原理
2 p- H8 r- C0 y6 s$ N4.1.1 Spark消息通信架构
3 f) Q9 t6 W1 o) U5 k/ ?7 L& D5 h4.1.2 Spark启动消息通信
, s/ j6 H* u9 ]/ E4.1.3 Spark运行时消息通信
# e: v% U5 k% a K" p4.2 作业执行原理
2 O0 ]. w# r$ I4.2.1 概述
/ }5 Y, O/ c) b4 z' {! J! s! n/ G3 O1 `4.2.2 提交作业
) f; a K, F, \9 o) n, p4.2.3 划分调度阶段! Z% u1 U- T0 s& i
4.2.4 提交调度阶段
" l/ |7 f" V3 s: ~4.2.5 提交任务! H9 e: Q' B2 K7 P0 L% M2 F
4.2.6 执行任务
, H& l- Z6 F) \" V: U4 b4.2.7 获取执行结果
- G, ]8 D2 K3 Z7 {. e$ s0 j8 V4.3 调度算法
( b% m+ y) X- ?( O8 I& p- ~4.3.1 应用程序之间
* e- `0 R+ [2 l- j2 J* p7 F, I: @4.3.2 作业及调度阶段之间
, j6 R, d8 f! @4 e4.3.3 任务之间' N2 g9 _! s! k
4.4 容错及HA
; a1 `' P% R- r/ Y( `6 Y4.4.1 Executor异常$ j7 w0 F/ u3 l& e$ `
4.4.2 Worker异常
3 ^) `4 a+ Q! l; _4.4.3 Master异常( T, C5 {8 p: h5 {1 Q& j
4.5 监控管理6 \# J& {5 f6 ?
4.5.1 UI监控
9 J% [ S2 y- m3 k0 |2 x4.5.2 Metrics
: ]# u( X! Z% ]4.5.3 REST3 B3 i% U1 t4 l |1 b0 q
4.6 实例演示
7 f w; Q$ A6 r; w* K4 r4.6.1 计算年降水实例8 F# }# p8 x3 w" N: a4 }
4.6.2 HA配置实例
/ x, |* @. z. U) q; D8 @4.7 小结& ]6 Q, J2 w7 c H; L
第5章 Spark存储原理, {- P. ?& \; x, m( V
5.1 存储分析
% |/ I" I/ c' j8 j( g5.1.1 整体架构
1 ^/ S$ X2 y. l% |' S5.1.2 存储级别
T3 A+ X# J2 X h# M5.1.3 RDD存储调用
. {( d) o1 F/ k9 w5 v, e: n5.1.4 读数据过程- \3 W3 x6 B3 |" a2 {, w/ b
5.1.5 写数据过程$ x, F0 q g- k7 z
5.2 Shuffle分析1 y5 @- f0 g' f7 A! c! G2 A9 p
5.2.1 Shuffle简介/ d4 ]& f3 G4 X+ o6 D# R
5.2.2 Shuffle的写操作9 u4 T+ w2 G. D
5.2.3 Shuffle的读操作6 p$ j; I% e5 @" J2 B) b
5.3 序列化和压缩+ c1 Q3 R% M" I9 B2 ^7 A
5.3.1 序列化
' s' L8 d- Z, n% C# g$ p: |5.3.2 压缩
5 ?+ |/ W! r+ g! S+ m4 n5.4 共享变量
$ s: ]' b2 ^ G; {5.4.1 广播变量9 V/ H, g# [8 [9 F0 }; @3 [$ M0 O
5.4.2 累加器- Z f5 R6 q& f1 }" u+ \
5.5 实例演示5 L1 W6 A- m! P; M4 Z
5.6 小结
- }. s8 n$ u) a/ K" H第6章 Spark运行架构. H0 A2 H1 J( {9 U0 t
6.1 运行架构总体介绍
; V" E" m( e# o- d; q5 V( |6.1.1 总体介绍
* G5 L4 \$ g% ~$ r; X' x6.1.2 重要类介绍7 N0 s, X( D) X9 W
6.2 本地(Local)运行模式
: r: `2 Y9 i# h2 q6.2.1 运行模式介绍
0 e5 t6 ?6 c5 K. t! I& L0 r6.2.2 实现原理
3 i9 H0 X1 D, A2 a+ ^6.3 伪分布(Local-Cluster)运行模式+ b' r8 r" ~; G* J9 v1 V
6.3.1 运行模式介绍# |" k& I; |. u( V/ _. U
6.3.2 实现原理
- l. s9 A( C1 }7 R% S+ I- V6.4 独立(Standalone)运行模式: ?5 s y# ^: a4 G1 p% @
6.4.1 运行模式介绍
0 J4 e2 {. H2 N& ^6.4.2 实现原理, d/ K' A7 y1 M0 B* u
6.5 YARN运行模式! z6 q9 d" R. R9 N; _3 x
6.5.1 YARN运行框架
$ T q: `0 v) A" t O: ?' }$ p6.5.2 YARN-Client运行模式介绍
- Y1 r5 Z( O* R* {9 U5 v) C6.5.3 YARN-Client 运行模式实现原理
' J. M/ f+ L; j& {6 n0 |( n6.5.4 YARN-Cluster运行模式介绍* a$ N: N, k9 b: P ~# P
6.5.5 YARN-Cluster 运行模式实现原理
7 J3 o$ j: L6 q4 r6.5.6 YARN-Client与YARN-Cluster对比
8 j! G: ]* n: h; o# {) o6.6 Mesos运行模式" p& V! J2 |- g4 k
6.6.1 Mesos介绍9 D% a8 U6 g+ k$ N& H
6.6.2 粗粒度运行模式介绍, h* O, x+ M. q- ]- e) t9 G
6.6.3 粗粒度实现原理
9 h$ R) ^; }. y6 d& Q6.6.4 细粒度运行模式介绍) E- ]% o$ Q4 q3 B* O0 D" y* L" m7 r
6.6.5 细粒度实现原理
: ~2 s: Q* h7 E7 y! _; x6.6.6 Mesos粗粒度和Mesos细粒度对比
& W+ L+ q4 p, _ `6.7 实例演示
0 w V2 B( H9 W4 u6 q. q* u9 t3 M6.7.1 独立运行模式实例
6 h: e5 K0 _6 {/ V% n4 F8 T2 W& P6.7.2 YARN-Client实例
. X! ~6 p, Z3 r0 D; h9 A8 R/ z6.7.3 YARN-Cluster实例
1 f/ e2 H. I9 ]* W% K E9 R6.8 小结# b2 Y9 j3 s/ }& p- W% F9 j
: s* C: @% A; L# f4 ?0 W
第三篇 组件篇2 B( |* h) X' U* V+ o/ ^# z
第7章 Spark SQL" u0 p, H' j2 ~3 `7 s
7.1 Spark SQL简介8 r, `% Q+ J& t: I( {+ o! p; j
7.1.1 Spark SQL发展历史
! N" V* }" i8 s& d F7.1.2 DataFrame/Dataset介绍9 t+ ~( A( D" C4 Q$ T& x- I
7.2 Spark SQL运行原理' j4 f, `" o% J
7.2.1 通用SQL执行原理
$ ~' C2 \0 }' B# n7.2.2 SparkSQL运行架构
- z2 k; v& b( A- F7.2.3 SQLContext运行原理分析; _) G' [' L: L# Y9 J. w
7.2.4 HiveContext介绍: |/ S7 W' J. m0 R# {; `! }
7.3 使用Hive-Console
4 c+ {% W+ {( \. X3 t4 @, v7.3.1 编译Hive-Console
6 V- [4 |8 M% p$ \' A7.3.2 查看执行计划 N0 X: n, I& u
7.3.3 应用Hive-Console
# B6 M3 Q, `3 p7.4 使用SQLConsole
# R7 Z0 u) ~) r* D$ l7.4.1 启动HDFS和Spark Shell7 ?4 [( M0 A9 v0 I" p- J1 {: {
7.4.2 与RDD交互操作2 Q3 A' ?! P$ y) ]" K6 b1 I
7.4.3 读取JSON格式数据
! N2 I4 @6 Q* ^3 m- n; m7.4.4 读取Parquet格式数据+ K9 x1 `* [1 N6 J+ U/ r5 y: r
7.4.5 缓存演示1 m' o V- U# W
7.4.6 DSL演示% q% u+ E7 ^7 i* q' h, i* y
7.5 使用Spark SQL CLI7 S7 r& t, V/ G
7.5.1 配置并启动Spark SQL CLI
$ c% C. f' Q. |. f1 q1 Z6 g3 i7.5.2 实战Spark SQL CLI/ L' M, P2 a# o1 `% }8 I
7.6 使用Thrift Server. j8 O5 J: C$ O8 F6 e4 Q2 b
7.6.1 配置并启动Thrift Server& |+ I v0 [( z* ` C# }
7.6.2 基本操作$ E6 y9 f. j2 o4 T
7.6.3 交易数据实例6 A3 Q2 @* m9 L) X3 g% B; Z
7.6.4 使用IDEA开发实例
& q) |% y% I3 }9 D7.7 实例演示
5 h U8 v' g7 |# [/ G a7.7.1 销售数据分类实例
: y8 q0 I2 w3 N7.7.2 网店销售数据统计
' s3 w" c7 e6 }7.8 小结
n6 W- B& ?4 z) ~, O' b4 ?, S第8章 Spark Streaming. K. R7 F8 A- y2 L
8.1 Spark Streaming简介
# }$ J `; Y1 W' G- W5 E8.1.1 术语定义
3 ^7 U: Y9 k* Y9 a4 K/ Q0 j8.1.2 Spark Streaming特点
) d, n, r+ n/ ~, Y8.2 Spark Streaming编程模型: n3 y t8 h0 q
8.2.1 DStream的输入源: {0 g5 E9 N( g% O
8.2.2 DStream的操作* H. U- W9 u! a' k% A
8.3 Spark Streaming运行架构; P7 s. E, S V
8.3.1 运行架构! [& K- a+ \ r. T0 K
8.3.2 消息通信
' ]& j( x) S6 c/ \8 x+ b. x8.3.3 Receiver分发
2 h* ]+ |9 B( A8.3.4 容错性
; r e% |7 G4 m. n" F5 H* ?8.4 Spark Streaming运行原理: {; ]' W* ?( q: x& Y& Z
8.4.1 启动流处理引擎6 ]- E- g- b! C& Y4 g L7 s) X
8.4.2 接收及存储流数据
8 ]& Y- t! P9 l, g n4 u+ K: I3 J- [8.4.3 数据处理
; D2 p3 ~/ z) e8 K8.5 实例演示& t; k0 x- s A P9 h+ F: X, G; K, e3 l
8.5.1 流数据模拟器
W9 N% E# e/ C& E u8.5.2 销售数据统计实例
" ]- q& L+ G1 Q5 k8.5.3 Spark Streaming Kafka实例
9 V/ ~& m. |" m/ v! d$ ~6 I! y8.6 小结
) _" o% P( B+ y' k! }9 F. w" C, a第9章 Spark MLlib
) O1 F* I0 r: ]2 d9.1 Spark MLlib简介, A4 P6 F: V6 L8 j5 u+ l
9.1.1 Spark MLlib介绍6 S9 q7 e1 m4 [: w0 n) o
9.1.2 Spark MLlib数据类型# I& M8 P- w. U% |( n
9.1.3 Spark MLlib基本统计方法9 j0 k0 x7 N X6 A; ~
9.1.4 预言模型标记语言
% P& g2 d0 U# z- @4 g6 F) B& |9.2 线性模型
" W1 b' P {. i3 l: p) P: i* q9.2.1 数学公式6 z0 C6 ^" \7 L( n* a5 R. A, m
9.2.2 线性回归! C* v* _2 [$ j2 v8 q
9.2.3 线性支持向量机
3 S. C! k4 P: m+ e9.2.4 逻辑回归
4 U. Y* v4 F) o1 ^" e1 m! f: G8 z9.2.5 线性小二乘法、Lasso和岭回归3 I. ^9 a! x; q8 S2 x* r y: S
9.2.6 流式线性回归7 b+ F1 B1 q9 J4 s' A4 V" |) z
9.3 决策树
2 `8 h# s) i& i9.4 决策模型组合
; v' ]) X- L! s3 D/ D- \4 N# f% F9.4.1 随机森林3 F% w$ j( O K2 V# e. S& a8 U5 u
9.4.2 梯度提升决策树' w3 r5 U7 _9 J( U# |- Q/ i' D" j
9.5 朴素贝叶斯
6 a( Q9 O3 D! X( ^" e9.6 协同过滤
: y2 c: T1 O" Y) t$ c9 y6 G- x9.7 聚类
6 Q: ^1 d6 {+ Z% C% e$ i4 f) @9.7.1 K-means
! z/ m1 S* ?& T5 C; P9.7.2 高斯混合
8 [% v' Y3 T, }8 L9 l9.7.3 快速迭代聚类
1 a$ f1 _3 ^. W9.7.4 LDA. o' U" w+ F! v8 p3 `. j/ Z
9.7.5 二分K-means) s7 J& L5 l ?: j: p2 G
9.7.6 流式K-means+ L6 o6 [/ y( J! O, u
9.8 降维8 ^5 F3 ~2 k' z4 I
9.8.1 奇异值分解降维* N7 `7 r/ t; N Q+ A4 R
9.8.2 主成分分析降维; T( u* l2 w* |3 I! Z# ]6 K
9.9 特征提取和变换* L' v0 w- n. V' V7 }6 [# G' {
9.9.1 词频—逆文档频率0 r1 }. }7 V5 }. p; g8 I5 N
9.9.2 词向量化工具: {1 m" A6 {9 E
9.9.3 标准化1 H. p( ]" |4 O
9.9.4 范数化1 l5 e0 J) j7 a2 o" |
9.10 频繁模式挖掘) X: B$ a: ^7 q! S. J6 A
9.10.1 频繁模式增长
7 \' P; |1 e2 M% e' q9.10.2 关联规则挖掘
' Z$ I U! b, e2 V9.10.3 PrefixSpan, }! {9 f# q3 v# }
9.11 实例演示. ^( r- |2 g. b+ S. I# `+ |
9.11.1 K-means聚类算法实例
/ g1 a% ^* E% f' \% U. d$ O3 m: |9.11.2 手机短信分类实例+ J$ d- ]4 H+ N& Q
9.12 小结
0 T: p! B; ^! X# U9 r6 J第10章 Spark GraphX7 y. H8 C) N }9 p% \6 \! x
10.1 GraphX介绍
( P9 W- n2 m1 B10.1.1 图计算0 J X. z* |! ~
10.1.2 GraphX介绍
- \& [! ]# \. A' g3 S10.1.3 发展历程7 h+ ]2 V( |' P% s6 t& A1 J
10.2 GraphX实现分析7 r' d5 d# I, }5 T1 J+ _9 v! b% S
10.2.1 GraphX图数据模型 y4 M; a% y) m7 [9 V
10.2.2 GraphX图数据存储( g: b3 L7 E' s; @$ o
10.2.3 GraphX图切分策略
4 X( @ x* W2 f3 u6 L2 D( I" E* g& X& \10.2.4 GraphX图操作+ {5 A1 v6 x" U" v
10.3 实例演示
' Y6 r1 d0 n& W( C7 ^/ h! ?' m10.3.1 图例演示- r) i; \/ K6 W- X
10.3.2 社区发现演示
+ [ [9 e( V f10.4 小结
1 o6 C @# _& u' S6 ]. i _* I" `第11章 SparkR. g8 }! X! J! v' D
11.1 概述
) ^. p" o2 }* b8 c( O y11.1.1 R语言介绍
3 W8 ~# @. F" r4 D7 p; _, N11.1.2 SparkR介绍
3 Q5 F/ P3 N( Q, r5 [7 i- q11.2 SparkR与DataFrame4 R5 { e8 A# }$ e# W
11.2.1 DataFrames介绍
/ V8 g8 ^4 N$ R5 @! R11.2.2 与DataFrame的相关操作) @. k' U! B+ S0 `, f+ ~; T+ s, {
11.3 编译安装SparkR0 P5 A3 w# M0 v: D: Z7 p
11.3.1 编译安装R语言9 e) Z! B! c f+ `2 R( H
11.3.2 安装SparkR运行环境
+ z" q' @) s5 P1 _& H11.3.3 安装SparkR
! C7 V" l2 J6 o$ v. R11.3.4 启动并验证安装
; P6 e. w: X% C( o7 }% V11.4 实例演示1 A3 ]% C( A, Y
11.5 小结
* B [% z3 D8 a8 k第12章 Alluxio
" Z( z: t# [: a12.1 Alluxio简介' j) s. |4 |% m# I3 c# I& s5 E/ o. _
12.1.1 Alluxio介绍* e* X& C# l o4 G) L+ o5 H* A
12.1.2 Alluxio系统架构5 T- U# U# a5 X5 R7 z3 ~9 y+ H8 `9 j9 p
12.1.3 HDFS与Alluxio0 c v) y: J( W4 @3 O
12.2 Alluxio编译部署' }9 r- \+ E, n
12.2.1 编译Alluxio1 S8 y; b0 H1 r& \+ L0 M& P
12.2.2 单机部署Alluxio- w2 v4 [7 { V
12.2.3 集群模式部署Alluxio3 I$ T0 G3 }) U4 i8 I9 p
12.3 Alluxio命令行使用% q3 @1 @% e, o2 q! h
12.3.1 接口说明1 P0 p1 r7 R+ J* M+ {# L$ ~/ U
12.3.2 接口操作示例
C3 D+ P* R' p: B0 j! I. u+ f2 o12.4 实例演示! a; R! J5 @3 h5 }! X$ h7 i K
12.4.1 启动环境3 g0 d- D! s1 D6 x0 Y1 R% }* P
12.4.2 Alluxio上运行Spark0 J4 n# `- n/ e/ T( k
12.4.3 Alluxio上运行MapReduce
l( U( E+ @, G- S12.5 小结
) F0 x' ]8 q# e9 V8 ?7 W
. N. ~2 K9 j3 x) S" g+ q
" c. Q; z% n* W2 M2 M# d百度云盘下载地址(完全免费-绝无套路):
* A6 A# } ?8 L- R# Z4 P) J |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|