基于企业案例实战深度剖析Spark内核Spark SQL\Streaming\GraphX\SparkR\机器学习

admin · 发表于 2017-11-6 11:28:34

[color=]顺应人群：
有JAVA开辟经历或Scala开辟经历，较好领会Hadoop,Hive等利用经历。课程对于Spark初学者，Spark开辟职员及Spark运维职员都具有比力大的进修代价。
课程方针：
深入了解Spark的运转道理
学会搭建Spark,hadoop集群情况
完全把握Spark编程根本，领会Spark运维的根本常识
完成大数据入门，可逐步转岗大数据相关职位。
课程情况:
预备情况：CentOS,eclipse或IntelliJ IDEA, Scala,JDK,Maven,sbt,Hadoop,hive，倡议三台虚拟机。
[color=]课程简介：
本课程将会连系精典案例讲授Spark Job的全部生命周期，以及若何分别Stage，若何天生逻辑履行计划和物理履行计划。从Hash Shuffle到Sort Shuffle再到Tungsten Sort Shuffle具体分析Spark Shuffle机制的道理与演进，同时连系Yarn分析Spark的内存模子以及若何停止相关调优，其中两节课首要先容Spark Streaming利用方式，分析通用流式处置系统的关键题目以及Spark Streaming对响应题目标处理计划，如窗口，乱序，Checkpoint等，并分析Spark Streaming与Storm和Kafka Stream各自的优弱点和适用处景。
最初将连系源码分析Spark SQL的道理，以及实现SQL引擎的一般方式，先容若何停止Spark SQL性能优化。并连系大量实在案例，分析若何处理数据倾斜题目从而进步利用性能。

游客，如果您要查看本帖隐藏内容请回复

streaming sql kafka, spark streaming jdbc, henta streaming, sparksql parquet, streaming shuffle