1334| 0
|
大讲台机构Spark视频教程(spark,spark sql) |
课程大纲
Spark概述 1、Spark概述 1)Spark是什么 2)Spark组成---大一统的软件栈 3)Spark组成---Spark Core 4)Spark组成---Spark SQL 5)Spark组成---Spark Streaming 6)Spark组成---Spark MLlib 7)Spark组成---GraphX 8)Spark与Hadoop的关系 9)Spark的竞争对手---Flink 10)Spark的竞争对手---Storm/JStorm 11)Spark的竞争对手---Hadoop3.x 2、Spark生态系统 1)Spark自有生态圈(以Spark为核心) 2)Spark 之外更大的生态圈 3)如何学习Spark 3、Spark 编程实例 1)Wordcount之Java版 2)Wordcount之Scala版 Spark安装部署 1、Spark源码编译 1)Spark版本选择 2)Spark下载—Apache版本 3)Spark下载—CDH版本 4)Spark下载—HDP版本 5)Spark build参考文档 6)下载Spark源代码 2、Spark最简安装 1)Spark预编译安装包下载—apache版 2)Spark目录详解 3)Spark最简安装 4)运行spark自带实例程序 3、Spark编程环境搭建 1)基于Intellij IDEA搭建Spark开发环境搭—参考文档 2)基于Intellij IDEA搭建Spark开发环境—maven vs sbt 3)基于Intellij IDEA搭建Spark开发环境搭—maven构建scala项目 4)基于Intellij IDEA搭建Spark开发环境搭—spark依赖 5)基于Intellij IDEA搭建Spark开发环境搭—打包插件 6)Spark 实例程序开发 7)Spark 项目的打包与运行 4、Spark 编程模型 1)Spark 核心概念详解 2)Spark Application的组成 3)Spark Application基本概念 4)Spark Application编程模型 5)RDD的概念 6)RDD接口 7)RDD的本质特征 8)RDD--partitions、RDD-preferredLocations、dependencies、compute、partitioner、lineage 9)典型RDD的特征 10)不同角度分析RDD 11)Scheduler Optimizations 12)如何创建RDD 13)RDD transformation操作 14)RDD 控制操作 15)RDD action操作 16)创建Pair RDD 17)Pair RDD transformation操作 18)Pair RDD action操作 19)Pair RDD 分区控制 5、Spark运行模式概述 1)解析Application program的组成部分 2)Spark 运行流程详解 3)Spark 具体执行流程 4)Spark 任务调度 5)Spark DAGScheduler 6)Spark TaskScheduler 7)Spark ScheduleBacked 8)Spark 作业详细执行过程 9)Spark 实例解析 10)Spark 各种运行模式详解 6、Spark Standalone运行模式 1)Spark Standalone架构 2)手工启动Spark集群 3)通过脚本启动Spark集群 4)访问Web UI查看Spark集群 5)Job提交与运行 6)Spark Standalone HA高可用实现 7)Spark基本工作流程 8)Spark local模式 9)Spark local cluster模式 10)Spark standalone模式 11)Spark standalone详细过程解析 12)Spark Standalone 实例操作 7、Spark on YARN 1)YARN是什么 2)YARN在Hadoop生态系统中的位置 3)YARN产生的背景 4)YARN基本架构 5)Spark on YARN配置与部署 6)spark-shell运行在YARN上 7)提交Spark Job给YARN 8)Spark on YARN运行架构解析 9)Spark on YARN配置详解和注意事项 HDFS核心技术精讲 HDFS核心技术精讲 1、HDFS设计的前提和目标 2、HDFS体系结构 3、HDFS特性与优点 4、HDFS不合适场景 5、HDFS2.0新特性 Spark Core 1、Spark交互式工具spark-shell 1)Spark REPL 2)Spark shell 3)spark-shell运行在YARN上 2、Spark应用程序部署工具spark-submit 1)打包Spark Application 2)使用spark-submit启动Spark Application 3)spark-submit 各种使用方式详解 4)spark-submit option各种配置选项详解 3、Spark存储管理机制 1)存储管理概述 2)RDD控制操作 3)RDD持久化级别 4)如何选择持RDD久化级别 5)缓存淘汰机制 6)Shuffle数据持久化 7)广播变量和累加器 4、Spark多语言编程 1)Spark多语言编程特点 2)Spark 编程模型 3)深入Spark 多语言编程 4)Spark 多语言编程综合实例 Spark SQL 1、Spark SQL概述 1)Spark SQL是什么? 2)何为结构化数据 3)SparkSQL 与 Spark Core的关系 4)Spark SQL前世今生:由Shark发展而来 5)Spark SQL前世今生:可以追溯到Hive 6)Spark SQL前世今生:Hive 到 Shark 7)Spark SQL前世今生:Shark 到 Spark SQL 8)Spark SQL前世今生:Hive 到 Hive on Spark 2、Spark SQL基本原理 1)Spark SQL模块划分 2)Spark SQL架构--catalyst设计图 3)Spark SQL运行架构 4)Hive兼容性 3、Spark SQL编程详解 1)SparkSQL的依赖 2)SparkSQL的入口:SQLContext 3)SparkSQL的入口: HiveContext 4)SQLContext vs HiveContext 5)Spark SQL的作用与使用方式 6)Spark SQL支持的API 7)从程序中使用SparkSQL的基本套路 8)DataFrame—推荐使用 9)为什么要用DataFrame 10)SparkSQL数据源:从各种数据源创建DataFrame 11)SparkSQL数据源:RDD 12)SparkSQL数据源:Hive 13)SparkSQL数据源:Hive读写 14)SparkSQL数据源:访问不同版本的metastore 15)SparkSQL数据源:Parquet 16)SparkSQL数据源:Json 17)SparkSQL数据源:JDBC 4、Spark SQL分布式SQL引擎 1)SparkSQL分布式查询引擎:两种实现方式 2)SparkSQL分布式查询引擎:Thrift JDBC/ODBC服务 3)SparkSQL分布式查询引擎:beeline 4)SparkSQL分布式查询引擎:Spark SQL CLI 5、Spark SQL用户自定函数 1)注册UDF 6、Spark SQL性能调优 1)开启缓存数据功能 2)参数调优 Spark Streaming 1、Spark Streaming概述 1)批处理 & 流处理 2)为什么需要流处理---更多场景需要 3)Spark Core & RDD本质上是离线运算 4)Spark Streaming是什么 5)Spark Streaming的竞争对手 6)Spark Streaming vs Storm 2、Spark Streaming 实例操作 1)Spark Streaming 实例操作 3、SparkStreaming运行原理与核心概念 1)SparkStreaming运行原理 2)SparkStreaming的高层抽象DStream 3)Dstream与RDD的关系 4)Batch duration 4、SparkStreaming编程模型 1)依赖管理 2)编程基本套路 3)Dstream输入源---input DStream 4)Dstream输入源--- Receiver 5)内置的input Dstream:Basic Sources 6)内置的input Dstream:Advanced Sources 7)Dstream输入源:multiple input DStream 8)Dstream输入源:Custom Receiver 9)无状态转换操作 10)有状态转换操作1-updateStateByKey 11)有状态转换操作2-window操作—普通规约与增量规约 12)有状态转换操作2-window操作—理解增量规约 13)DStream输出 14)持久化操作 5、SparkStreaming性能调优 1)合理的并行度 2)减少任务启动开销 3)选择合适的batch Duration 4)内存调优 5)设置合理的cpu数 6、Spark Streaming容错 1)检查点机制-checkpoint 2)Driver节点容错 3)Worker节点容错 4)处理保证 下载链接:https://pan.baidu.com/s/1hrHVfla(回复可见百度云提取密码) 密码:
购买主题
本主题需向作者支付 30 下载币 才能浏览
| |
管理员
|
|