Spark大数据分析平台学习经验分享
spark介绍: 2015年, Spark只用了一年多时间,已实现开源到火爆 ,亦逐渐显露出与通用大数据平台Hadoop的分庭抗争之势。在这个大背景下,在大数据领域时代,谁将是独领风骚?Spark无疑是最大的竞争者,无论是 2015 Spark技术峰会 ,还是国内的大数据大会,可以看到中国力量正在崛起,Spark最大的集群来自腾讯——8000个节点,单个Job最大分别是阿里巴巴和Databricks——1PB,震撼人心!同时,截止2015年6月,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。 授课对象: 有Java开发经验或Scala开发经验,最好了解Hadoop,Hive等使用经验。课程对于Spark初学者,Spark开发人员及Spark运维人员都具有比较大的学习价值。
收获预期: 深入理解Spark的运行原理 学会搭建Spark,hadoop集群环境 完全掌握Spark编程基础,了解Spark运维的基础知识 完成大数据入门,可逐渐转岗大数据相关职位。
课程环境: Spark版本:Spark1.4 准备环境:CentOS,eclipse或IntelliJ IDEA, Scala,JDK,Maven,sbt,Hadoop,hive,建议三台虚拟机。 然而作为一个高速发展中的开源项目,其部署过程中存在的门槛和挑战亦不可谓不大,本课程将主要介绍Spark1.4.0,引领大家进入大数据Spark入门。
课程目录: 1、Spark生态和安装部署 什么是Spark Spark有什么 安装部署 Spark安装简介 Spark的源码编译 Spark Standalone安装 Spark Standalone HA安装 Spark工具 Spark交互式工具spark-shell Spark应用程序部署工具spark-submit
2、Spark编程模型和解析 Spark的编程模型 RDD的特点、操作、依赖关系 缓存策略 广播变量和累加器 Spark编程环境搭建 Spark编程实例
3、Spark运行架构和解析 Spark的运行架构 基本术语 运行架构(DAGScheduler、TaskSeduler、Task、容错性、推测机制、数据本地性) Spark on Standalone运行过程 Spark on YARN 运行过程 Spark实例演示 Spark on Standalone实例演示 Spark on YARN实例演示
4、不得不说的hive hive的运行架构 hive的安装 hive的实例演示 shark的简介
5、SparkSQL原理和实践 Spark的运行架构 Catalyst sqlontext hiveContext ThriftServer和CLI ThriftServer CLI SparkSQL的实例演示和编程 spark-shell实例演示 spark-sql实例演示 SparkSQL的编程
6、SparkStreaming原理和实践 SparkStreaming原理 SparkStreaming的原理 SparkStreaming的运行方式 DStream的特点和操作 SparkStreaming实例演示 网络数据演示 文本实例演示 Window操作演示
7、MLlib入门 什么是机器学习 MLlib的架构 Mllib实例演示 聚类算法演示 推荐系统演示
8、GraphX入门 图论基础 GraphX的架构 GraphX实例演示 图的基本操作 PageRank演示
