Spark大數(shù)據(jù)處理與案例分析高級工程師實(shí)戰(zhàn)培訓(xùn)其它上課時間:
培訓(xùn)對象:
各地政府云計(jì)算物聯(lián)網(wǎng)產(chǎn)業(yè)相關(guān)負(fù)責(zé)人,各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。對于懷有設(shè)計(jì)疑問和問題,需要梳理解答的團(tuán)隊(duì)和個人
培訓(xùn)內(nèi)容:
課程收益:
課程目標(biāo)本課程將為大家全面而又深入的介紹Spark相關(guān)內(nèi)容導(dǎo)讀“Spark”大數(shù)據(jù)實(shí)時處理-基于Spark的大數(shù)據(jù)實(shí)時處理及應(yīng)用技術(shù)培訓(xùn)北京2016-4-20(3天)
Spark生態(tài)系統(tǒng)(BDAS項(xiàng)目)已經(jīng)發(fā)展成一個,包含多個子項(xiàng)目的集合,包括SparkSQL、SparkStreaming、GraphX、MLlib等,基于Spark的大數(shù)據(jù)實(shí)時處理及應(yīng)用技術(shù)課程從大數(shù)據(jù)實(shí)時處理技術(shù)以及Spark實(shí)戰(zhàn)的角度,結(jié)合理論和實(shí)踐,全方位地介紹Spark大數(shù)據(jù)實(shí)時處理工具的原理和內(nèi)核,包括Spark大數(shù)據(jù)計(jì)算框架、運(yùn)行架構(gòu)、設(shè)計(jì)模型和數(shù)據(jù)管理策略,及Spark在業(yè)界的應(yīng)用。
課程大綱:
培訓(xùn)大綱(3天課程)
模塊一Spark生態(tài)介紹
Mapreduce、storm和spark模型的比較和使用場景介紹
Spark產(chǎn)生背景
Spark(內(nèi)存計(jì)算框架)
SparkSteaming(流式計(jì)算框架)
SparkSQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel將被代)
DlinkDB介紹
parkR介紹
模塊二Spark安裝部署
Spark安裝簡介
Spark的源碼編譯
SparkStandalone安裝
Spark應(yīng)用程序部署工具spark-submit
Spark的高可用性部署
模塊三Spark運(yùn)行架構(gòu)和解析
Spark的運(yùn)行架構(gòu)
基本術(shù)語
運(yùn)行架構(gòu)
SparkonStandalone運(yùn)行過程
SparkonYARN運(yùn)行過程
Spark運(yùn)行實(shí)例解析
SparkonStandalone實(shí)例解析
SparkonYARN實(shí)例解析
模塊四Sparkscala編程
Scala基本語法與高階語法
Scala基本語法
Scala開發(fā)環(huán)境搭建
Scala開發(fā)Spark應(yīng)用程序
使用java編程
使用scala編程
使用python編程
比較Standalone與YARN模式下的優(yōu)缺點(diǎn)
模塊五Spark編程模型和解析
Spark的編程模型
Spark編程模型解析
RDD的特點(diǎn)、操作、依賴關(guān)系
Spark應(yīng)用程序的配置
Spark的架構(gòu)
spark的容錯機(jī)制
數(shù)據(jù)的本地性
緩存策略介紹
寬依賴與窄依賴
模塊六Spark數(shù)據(jù)挖掘
Mllib的介紹
graphX核心原理
tableoperator和graphoperator區(qū)別
vertices、edges和triplets介紹
構(gòu)建一個graph
SparkR原理
SparkR實(shí)戰(zhàn)
模塊七SparkStreaming原理和實(shí)踐
SparkStreaming與Strom的區(qū)別
Kafka的部署
Kafka與SparkStreaming的整合
SparkStreaming原理
Spark流式處理架構(gòu)
DStream的特點(diǎn)
Dstream的操作和RDD的區(qū)別
帶狀態(tài)的transformation與無狀態(tài)transformation
SparkStreaming的優(yōu)化
SparkStreaming實(shí)例
Streaming的容錯機(jī)制
streaming在yarn模式下的注意事項(xiàng)
對于需結(jié)合第三方存儲機(jī)制的與流式處理方案
文本實(shí)例
網(wǎng)絡(luò)數(shù)據(jù)處理
Kafka+SparkStreaming實(shí)現(xiàn)日志的實(shí)時分析案例
模塊八Spark的優(yōu)化
序列化優(yōu)化——Kryo
Spark參數(shù)優(yōu)化實(shí)戰(zhàn)
Spark任務(wù)的均勻分布策略
Partitionkey傾斜的解決方案
Spark任務(wù)的監(jiān)控
GC的優(yōu)化
SparkStreaming吞吐量優(yōu)化
SparkRDD使用內(nèi)存的優(yōu)化策略
Spark在使用中的感想分享
模塊九Spark的數(shù)據(jù)源
Spark與HDFS的整合
HDFSRDD原理和實(shí)現(xiàn)
Spark與Hbase的整合
Spark與Cassendera整合
HbaseRDD的分區(qū)讀取
HbaseRDD的原理和實(shí)現(xiàn)
SparkparallelismRDD的工作機(jī)制
模塊十SparkStreaming應(yīng)用及案例分析
SparkStreaming產(chǎn)生動機(jī)
SparkStreaming程序設(shè)計(jì)
(1)創(chuàng)建DStream
(2)基于DStream進(jìn)行流式處理
SparkStreaming容錯與性能優(yōu)化
(1)SparkStreaming容錯機(jī)制
(2)如何對sparkStreaming進(jìn)行優(yōu)化
SparkStreaming案例分析基于SparkStreaming的用戶標(biāo)簽系統(tǒng),內(nèi)容包括項(xiàng)目背景,項(xiàng)目架構(gòu)以及實(shí)施方法
模塊十一典型項(xiàng)目案例實(shí)戰(zhàn)
基于spark日志分析
個性化推薦系統(tǒng):帶你揭開其神秘面紗
在線投放引擎
揭開淘寶點(diǎn)擊推薦系統(tǒng)的神秘面紗
淘寶數(shù)據(jù)服務(wù)架構(gòu)—實(shí)時計(jì)算平臺培訓(xùn)師介紹:
張老師:
阿里大數(shù)據(jù)高級專家,國內(nèi)資深的Spark、Hadoop技術(shù)專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術(shù)進(jìn)行了多年的深入的研究,更主要的是這些技術(shù)在大量的實(shí)際項(xiàng)目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運(yùn)維方面積累了豐富的項(xiàng)目實(shí)施經(jīng)驗(yàn)。
近年主要典型的項(xiàng)目有:
某電信集團(tuán)網(wǎng)絡(luò)優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實(shí)時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運(yùn)營商全國用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項(xiàng)目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(WebGameDaas)平臺項(xiàng)目等。
課程對象各地政府云計(jì)算物聯(lián)網(wǎng)產(chǎn)業(yè)相關(guān)負(fù)責(zé)人,各類IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。
對于懷有設(shè)計(jì)疑問和問題,需要梳理解答的團(tuán)隊(duì)和個人