大數(shù)據(jù)處理技術(shù)其它上課時間:
培訓(xùn)對象:
所有對此感興趣的對象
培訓(xùn)內(nèi)容:
課程大綱:
時間內(nèi)容
第一天第1個主題:Hadoop三問(徹底理解Hadoop)
1、Hadoop為什么是云計(jì)算分布式大數(shù)據(jù)的事實(shí)開源標(biāo)準(zhǔn)軟件框架
2、Hadoop的具體是如何工作
3、Hadoop的生態(tài)架構(gòu)和每個模塊具體的功能是什么
第2個主題:Hadoop集群與管理(具備構(gòu)建并駕馭Hadoop集群能力)
1、 Hadoop集群的搭建
2、 Hadoop集群的監(jiān)控
3、 Hadoop集群的管理
4、集群下運(yùn)行MapReduce程序
第3個主題:徹底掌握HDFS(具備開發(fā)自己網(wǎng)盤的能力)
1、HDFS體系架構(gòu)剖析
2、NameNode、DataNode、SecondaryNameNode架構(gòu)
3、保證NodeName高可靠性最佳實(shí)踐
4、DataNode中Block劃分的原理和具體存儲方式
5、修改Namenode、DataNode數(shù)據(jù)存儲位置
6、使用CLI操作HDFS
7、使用Java操作HDFS
第4個主題:徹底掌握HDFS(具備修改HDFS具體源碼實(shí)現(xiàn)的能力)
1、RPC架構(gòu)剖析
2、源碼剖析Hadoop構(gòu)建于RPC之上
3、源碼剖析HDFS的RPC實(shí)現(xiàn)
4、源碼剖析客戶端與與NameNode的RPC通信
第5個主題:徹底掌握MapReduce(從代碼的角度剖析MapReduce執(zhí)行的具體過程并具備開發(fā)MapReduce代碼的能力)
1、MapReduce執(zhí)行的經(jīng)典步驟
2、wordcount運(yùn)行過程解析
3、Mapper和Reducer剖析
4、自定義Writable
5、新舊API的區(qū)別以及如何使用就API
6、把MapReduce程序打包成Jar包并在命令行運(yùn)行
第6個主題:徹底掌握MapReduce(具備掌握Hadoop如何把HDFS文件轉(zhuǎn)化為Key-Value讓供Map調(diào)用的能力)
1、Hadoop是如何把HDFS文件轉(zhuǎn)化為鍵值對的
2、源碼剖析Hadoop讀取HDFS文件并轉(zhuǎn)化為鍵值對的過程實(shí)現(xiàn)
3、源碼剖析轉(zhuǎn)化為鍵值對后供Map調(diào)用的過程實(shí)現(xiàn)
第7個主題:徹底掌握MapReduce(具備掌握MapReduce內(nèi)部運(yùn)行和實(shí)現(xiàn)細(xì)節(jié)并改造MapReduce的能力)
1、Hadoop內(nèi)置計(jì)數(shù)器及如何自定義計(jì)數(shù)器
2、Combiner具體的作用和使用以及其使用的限制條件
3、Partitioner的使用最佳實(shí)踐
4、 Hadoop內(nèi)置的排序算法剖析
5、自定義排序算法
6、 Hadoop內(nèi)置的分組算法
7、自定義分組算法
8、 MapReduce常見場景和算法實(shí)現(xiàn)
第8個主題:某知名電商公司Hadoop實(shí)施全程揭秘(具備掌握商業(yè)級別Hadoop的分析、開發(fā)、部署的全過程的能力)
通過電商公司現(xiàn)場案例展示商業(yè)級別一個完整項(xiàng)目的分析、開發(fā)、部署的全過程
時間內(nèi)容
第二天第9個主題:YARN(具備理解和使用YARN的能力)
1、YARN的設(shè)計(jì)思想
2、YARN的核心組件
3、YARN的共組過程
4、YARN應(yīng)用程序編寫
第10個主題:ResourceManager深度剖析(具備深刻理解ResourceManager的能力)
1、ResourceManager的架構(gòu)
2、ClientRMService 與AdminService
3、NodeManager
4、 Container
5、 Yarn的 HA機(jī)制
第11個主題:NodeManager深度剖析(具備掌握NodeManager及Container的能力)
1、NodeManager架構(gòu)
2、Container Management
3、Container lifecycle
4、資源管理與隔離
第12個主題:MapReduce的經(jīng)典案例純代碼實(shí)戰(zhàn)(初級)
1 MapReduce通過采集的氣息溫度數(shù)據(jù)分析每年的最高溫度代碼實(shí)戰(zhàn)
2 MapReduce數(shù)據(jù)去重案例代碼案例實(shí)戰(zhàn)
3 MapReduce數(shù)據(jù)排序代碼案例實(shí)戰(zhàn)
4MapReduce平均成績代碼案例實(shí)戰(zhàn)
第13個主題:MapReduce的經(jīng)典案例純代碼實(shí)戰(zhàn)(進(jìn)階1)
1 MapReduce求最大最小值案例代碼實(shí)戰(zhàn)
2 MapReduce TopN案例實(shí)戰(zhàn)
3 MapReduce日志分析案例實(shí)戰(zhàn)
第14個主題:MapReduce的經(jīng)典案例純代碼實(shí)戰(zhàn)(進(jìn)階2)
1 MapReduce Join操作案例代碼實(shí)戰(zhàn)
2 MapReduce Join優(yōu)化案例實(shí)戰(zhàn)
3 MapReduce 二次排序代碼案例實(shí)戰(zhàn)
第15個主題:MapReduce的經(jīng)典案例純代碼實(shí)戰(zhàn)(高級1)
1 MapReduce 自動連接操作案例代碼實(shí)戰(zhàn)
2 MapReduce 倒排索引案例實(shí)戰(zhàn)
3 MapReduce 多維度排序代碼案例實(shí)戰(zhàn)
第16個主題:MapReduce的經(jīng)典案例純代碼實(shí)戰(zhàn)(高級2)
1 MapReduce MultipleInputs案例代碼實(shí)戰(zhàn)
2 MapReduce MultipleOutputs案例實(shí)戰(zhàn)
3 MapReduce ChainMaper、ChainReducer代碼案例實(shí)戰(zhàn)
第12個主題:Spark的架構(gòu)設(shè)計(jì)
1 Spark生態(tài)系統(tǒng)剖析
2 Spark的架構(gòu)設(shè)計(jì)剖析
3 RDD計(jì)算流程解析
4 Spark的出色容錯機(jī)制 培訓(xùn)師介紹:
Spark、Docker、Android技術(shù)中國區(qū)布道師。
Spark亞太研究院院長和首席專家,移動互聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)技術(shù)領(lǐng)域集大成者。
當(dāng)今云計(jì)算領(lǐng)域最火爆的技術(shù)Docker源碼級專家和Docker技術(shù)在中國的最早實(shí)踐者之一。
Cassandra和H技術(shù)在中國的最早實(shí)踐者之一。
在Spark、Hadoop、Android、Docker等方面有豐富的源碼、實(shí)務(wù)和性能優(yōu)化經(jīng)驗(yàn)。徹底研究了Spark從0.5.0到1.1.0共18個版本的Spark源碼。Spark最佳暢銷書《大數(shù)據(jù)spark企業(yè)級實(shí)戰(zhàn)》作者,電子書《Spark GraphX大規(guī)模圖計(jì)算和圖挖掘》、《Spark實(shí)戰(zhàn)高手之路》的作者,從2014年6月24日開始,在網(wǎng)上開啟了免費(fèi)的Spark公開課《決勝大數(shù)據(jù)時代Spark100期公益大講堂》。
Hadoop源碼級專家,曾負(fù)責(zé)某知名公司的類Hadoop框架開發(fā)工作,專注于Hadoop一站式解決方案的提供,同時也是云計(jì)算分布式大數(shù)據(jù)處理的最早實(shí)踐者之一,Hadoop的狂熱愛好者,不斷的在實(shí)踐中用Hadoop解決不同領(lǐng)域的大數(shù)據(jù)的高效處理和存儲,現(xiàn)在正負(fù)責(zé)Hadoop在搜索引擎中的研發(fā)等,著有《云計(jì)算分布式大數(shù)據(jù)Hadoop實(shí)戰(zhàn)高手之路---從零開始》《云計(jì)算分布式大數(shù)據(jù)Hadoop實(shí)戰(zhàn)高手之路---高手崛起》《云計(jì)算分布式大數(shù)據(jù)Hadoop。實(shí)戰(zhàn)高手之路---高手之巔》等;
國內(nèi)最早(2007年)從事于Android系統(tǒng)移植、軟硬整合、框架修改、應(yīng)用程序軟件開發(fā)以及Android系統(tǒng)測試和應(yīng)用軟件測試的技術(shù)專家和技術(shù)創(chuàng)業(yè)人員之一。
多款瀏覽器定制者,中國大陸HTML5的技術(shù)引領(lǐng)者。