基于企业案例实战深度剖析Spark内核Spark SQL\Streaming\GraphX\SparkR\机器学习

舍远求近 发表于 2017-11-26 01:19:53

适应人群：
有Java开发经验或Scala开发经验，较好了解Hadoop,Hive等使用经验。课程对于Spark初学者，Spark开发人员及Spark运维人员都具有比较大的学习价值。

课程目标：
深入理解Spark的运行原理
学会搭建Spark,hadoop集群环境
完全掌握Spark编程基础，了解Spark运维的基础知识
完成大数据入门，可逐渐转岗大数据相关职位。

课程环境:
准备环境：CentOS,eclipse或IntelliJ IDEA, Scala,JDK,Maven,sbt,Hadoop,hive，建议三台虚拟机。

课程简介：
本课程将会结合精典案例讲解Spark Job的整个生命周期，以及如何划分Stage，如何生成逻辑执行计划和物理执行计划。从Hash Shuffle到Sort Shuffle再到Tungsten Sort Shuffle详细分析Spark Shuffle机制的原理与演进，同时结合Yarn分析Spark的内存模型以及如何进行相关调优，其中两节课主要介绍Spark Streaming使用方式，分析通用流式处理系统的关键问题以及Spark Streaming对相应问题的解决方案，如窗口，乱序，Checkpoint等，并分析Spark Streaming与Storm和Kafka Stream各自的优缺点和适用场景。

最后将结合源码分析Spark SQL的原理，以及实现SQL引擎的一般方法，介绍如何进行Spark SQL性能优化。并结合大量真实案例，分析如何解决数据倾斜问题从而提高应用性能。

下载地址:

**** Hidden Message *****

sky_huanglong 发表于 2018-6-19 13:17:22

不错不错，楼主您辛苦了。。。

光帆发表于 2018-7-12 23:12:08

好好学习了确实不错

ctlh07 发表于 2018-7-25 12:50:07

学习了，谢谢分享、、、

koght123 发表于 2018-7-28 04:56:06

有竞争才有进步嘛

三胖发表于 2018-7-31 20:07:04

小手一抖，钱钱到手！

2812297152 发表于 2018-9-14 20:38:11

积极学习

进德发表于 2018-9-15 08:46:39

正需要，支持楼主大人了！

fbqp007 发表于 2018-9-18 17:21:37

没看完~~~~~~ 先顶，好同志

fbqp007 发表于 2018-9-21 06:41:04

有道理。。。

页: [1] 2 3 4 5 6 7 8 9 10

dmz社区's Archiver

基于企业案例实战深度剖析Spark内核Spark SQL\Streaming\GraphX\SparkR\机器学习