培訓(xùn)內(nèi)容:
課程收益:
1,全面了解R語(yǔ)言數(shù)據(jù)挖掘的相關(guān)知識(shí)。
2,學(xué)習(xí)R的數(shù)據(jù)挖掘核心技術(shù)方法以及應(yīng)用特征。
3,深入使用R在數(shù)據(jù)挖掘和分析中的使用。
4,了解R與Hadoop、Spark等技術(shù)的融合使用。
培訓(xùn)頒發(fā)證書(shū):
培訓(xùn)結(jié)束,頒發(fā)培訓(xùn)中心“R數(shù)據(jù)挖掘技術(shù)-基于R語(yǔ)言的數(shù)據(jù)挖掘和統(tǒng)計(jì)分析技術(shù)”結(jié)業(yè)證書(shū)。
課程大綱:
隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)切實(shí)地迎來(lái)了一個(gè)大數(shù)據(jù)的時(shí)代。如何對(duì)海量數(shù)據(jù)進(jìn)行挖掘和分析,已經(jīng)成為一個(gè)非常重要且緊迫的需求。
R是一個(gè)數(shù)據(jù)分析和圖形顯示的程序設(shè)計(jì)環(huán)境,用于統(tǒng)計(jì)分析、繪圖的語(yǔ)言和操作。是目前廣大企業(yè)較通用的數(shù)據(jù)挖掘與統(tǒng)計(jì)分析工具。為解決廣大系統(tǒng)設(shè)計(jì)人員深入進(jìn)行數(shù)據(jù)挖掘與統(tǒng)計(jì)分析需要,培訓(xùn)中心特舉辦“R數(shù)據(jù)挖掘技術(shù)-基于R語(yǔ)言的數(shù)據(jù)挖掘和統(tǒng)計(jì)分析技術(shù)”培訓(xùn)班,具體事宜通知如下:
一、培訓(xùn)對(duì)象
1,系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級(jí)程序員、資深開(kāi)發(fā)人員。
2,牽涉到數(shù)據(jù)挖掘和統(tǒng)計(jì)分析的數(shù)據(jù)中心運(yùn)行、規(guī)劃、設(shè)計(jì)負(fù)責(zé)人。
3,政府機(jī)關(guān),金融保險(xiǎn)、移動(dòng)和互聯(lián)網(wǎng)等大數(shù)據(jù)來(lái)源單位的負(fù)責(zé)人。
4,高校、科研院所牽涉到數(shù)據(jù)挖掘與統(tǒng)計(jì)分析處理的項(xiàng)目負(fù)責(zé)人。
二、學(xué)員基礎(chǔ)
1,對(duì)IT系統(tǒng)設(shè)計(jì)有一定的理論與實(shí)踐經(jīng)驗(yàn)。
2,對(duì)數(shù)據(jù)挖掘和數(shù)據(jù)處理方法有一定的基礎(chǔ)知識(shí)。
3,對(duì)Hadoop/Spark等大數(shù)據(jù)技術(shù)有一定的了解。
三、師資
由業(yè)界知名大數(shù)據(jù)專家親自授課:
楊老師 主要研究網(wǎng)絡(luò)信息分析以及云計(jì)算相關(guān)技術(shù),長(zhǎng)期從事通信網(wǎng)管系統(tǒng)、網(wǎng)絡(luò)信息處理、商務(wù)智能(BI)以及電信決策支持系統(tǒng)的研究開(kāi)發(fā)工作,主持和參與了多個(gè)國(guó)家和省部級(jí)基金項(xiàng)目,具有豐富的工程實(shí)踐及軟件研發(fā)經(jīng)驗(yàn)。
四、培訓(xùn)要點(diǎn)
互聯(lián)網(wǎng)點(diǎn)擊數(shù)據(jù)、傳感數(shù)據(jù)、日志文件、具有豐富地理空間信息的移動(dòng)數(shù)據(jù)和涉及網(wǎng)絡(luò)的各類評(píng)論,成為了海量信息的多種形式。當(dāng)數(shù)據(jù)以成百上千TB不斷增長(zhǎng)的時(shí)候,我們?cè)趦?nèi)部交易系統(tǒng)的歷史信息之外,需要一種基于大數(shù)據(jù)分析的決策模型和技術(shù)支持。
目前對(duì)大數(shù)據(jù)的分析工具,有Hadoop/Yarn上基于Java語(yǔ)言的Mahout,有Spark上基于Scala的MLlib,但這些工具都由于比較年輕以及側(cè)重于計(jì)算背景的分布式,與傳統(tǒng)的行業(yè)應(yīng)用聯(lián)系還不是太緊密,在傳統(tǒng)行業(yè)中應(yīng)用,至少目前效果和影響還有待提高。
R語(yǔ)言是一個(gè)數(shù)據(jù)分析和圖形顯示的程序設(shè)計(jì)環(huán)境,廣泛用于統(tǒng)計(jì)分析、繪圖的語(yǔ)言和操作。同時(shí)R也是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具,也是GNU的一個(gè)自由、免費(fèi)、源代碼開(kāi)放的軟件。R包括一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲(chǔ)和處理系統(tǒng);數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大);完整連貫的統(tǒng)計(jì)分析工具;優(yōu)秀的統(tǒng)計(jì)制圖功能;簡(jiǎn)便而強(qiáng)大的編程語(yǔ)言:可操縱數(shù)據(jù)的輸入和輸入,可實(shí)現(xiàn)分支、循環(huán),用戶可自定義功能。
事實(shí)上,R是目前廣大企業(yè)通用的數(shù)據(jù)挖掘與統(tǒng)計(jì)分析工具,為此Spark等大數(shù)據(jù)平臺(tái)從2014年就開(kāi)始在SparkR等技術(shù)中,將R引入到大數(shù)據(jù)統(tǒng)計(jì)分析中,未來(lái)形成以R語(yǔ)言為代表的SparkR, 以類SQL為代表的SparkQL,以及Hive on Tez三足鼎立的大數(shù)據(jù)統(tǒng)計(jì)分析工具和平臺(tái)。
本課程從R語(yǔ)言數(shù)據(jù)挖掘和統(tǒng)計(jì)分析實(shí)戰(zhàn)的角度,結(jié)合理論和實(shí)踐,全方位地介紹R這一高性能數(shù)據(jù)分析工具的開(kāi)發(fā)技巧。本課程涉及的主題包括:本培訓(xùn)將介紹基于R語(yǔ)言進(jìn)行數(shù)據(jù)處理、數(shù)據(jù)探索的基本方法,利用R語(yǔ)言實(shí)現(xiàn)模型選擇、Logistic回歸及決策樹(shù)算法,以及貝葉斯算法及支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等算法原理及實(shí)現(xiàn)進(jìn)行講解。
本課程教學(xué)過(guò)程中還從國(guó)內(nèi)外經(jīng)典R語(yǔ)言教材和應(yīng)用中,提取了大量的案例分析來(lái)幫助學(xué)員了解如何用R系列工具來(lái)解決數(shù)據(jù)統(tǒng)計(jì)分析的具體問(wèn)題,并介紹了從數(shù)據(jù)中挖掘出有價(jià)值的信息的關(guān)鍵。
本課程不是一個(gè)泛泛的理論性、概念性的介紹課程,而是針對(duì)問(wèn)題討論解決方案的深入課程。教師對(duì)于上述領(lǐng)域有深入的理論研究與實(shí)踐經(jīng)驗(yàn),在課程中將會(huì)針對(duì)這些問(wèn)題與學(xué)員一起進(jìn)行研究,在關(guān)鍵點(diǎn)上還會(huì)搭建實(shí)驗(yàn)環(huán)境進(jìn)行實(shí)踐研究,以加深對(duì)于這些解決方案的理解。通過(guò)本課程學(xué)習(xí),希望推動(dòng)R相關(guān)的項(xiàng)目開(kāi)發(fā)上升到一個(gè)新水平。
五、培訓(xùn)內(nèi)容
第一講數(shù)據(jù)挖掘和R簡(jiǎn)介
1.1 數(shù)據(jù)挖掘
1.2 R語(yǔ)言
1.3 Iris數(shù)據(jù)集
1.4Bodyfat數(shù)據(jù)集
第二講數(shù)據(jù)的導(dǎo)入與導(dǎo)出
2.1 R數(shù)據(jù)的保存與加載
2.2 CSV文件的導(dǎo)入與導(dǎo)出
2.3 通過(guò)ODBC從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)
2.4 從Excel中導(dǎo)入與導(dǎo)出數(shù)據(jù)
第三講數(shù)據(jù)可視化展現(xiàn)
3.1 查看數(shù)據(jù)
3.2 單個(gè)變量展現(xiàn)
3.3 多個(gè)變量展現(xiàn)
3.4 更多探索
3.5 將圖表保存到文件中
第四講決策樹(shù)與隨機(jī)森林
4.1 使用party包構(gòu)建決策樹(shù)
4.2 使用rpart包構(gòu)建決策樹(shù)
4.3 隨機(jī)森林
第五講回歸分析
5.1 線性回歸
5.2 邏輯回歸
5.3 廣義線性回歸
5.4 非線性回歸
第六講聚類分析
6.1 k-means聚類
6.2 k-medoids聚類
6.3 層次聚類
6.4 基于密度的聚類
第七講離群點(diǎn)檢測(cè)
7.1 單變量的離群點(diǎn)檢測(cè)
7.2 局部離群點(diǎn)因子檢測(cè)
7.3 用聚類方法進(jìn)行離群點(diǎn)檢測(cè)
7.4 時(shí)間序列數(shù)據(jù)的離群點(diǎn)檢測(cè)
第八講時(shí)間序列分析
8.1 R中的時(shí)間序列數(shù)據(jù)
8.2 時(shí)間序列分解
8.3 時(shí)間序列預(yù)測(cè)
8.4 時(shí)間序列聚類
8.5 時(shí)間序列分類
第九講關(guān)聯(lián)規(guī)則
9.1 關(guān)聯(lián)規(guī)則的基本概念
9.2 Titanic數(shù)據(jù)集
9.3 關(guān)聯(lián)規(guī)則挖掘
9.4 消除冗余
9.5 解釋規(guī)則
9.6 關(guān)聯(lián)規(guī)則的可視化
第十講社交網(wǎng)絡(luò)分析
10.1 詞項(xiàng)網(wǎng)絡(luò)
10.2 推文網(wǎng)絡(luò)
10.3 雙模式網(wǎng)絡(luò)
第十一講 R與Hadoop/Spark等大數(shù)據(jù)技術(shù)的融合
1)R/Hadoop數(shù)據(jù)處理技術(shù)介紹
2)SparkR數(shù)據(jù)處理技術(shù)介紹
3)基于Hadoop/Yarn集群的應(yīng)用展望
六、培訓(xùn)目標(biāo)
1,全面了解R語(yǔ)言數(shù)據(jù)挖掘的相關(guān)知識(shí)。
2,學(xué)習(xí)R的數(shù)據(jù)挖掘核心技術(shù)方法以及應(yīng)用特征。
3,深入使用R在數(shù)據(jù)挖掘和分析中的使用。
4,了解R與Hadoop、Spark等技術(shù)的融合使用。
七、培訓(xùn)時(shí)間、地點(diǎn)
時(shí)間: 2016年5月18日-5月20日 地點(diǎn):北京
八、證 書(shū)
培訓(xùn)結(jié)束,頒發(fā)培訓(xùn)中心“R數(shù)據(jù)挖掘技術(shù)-基于R語(yǔ)言的數(shù)據(jù)挖掘和統(tǒng)計(jì)分析技術(shù)”結(jié)業(yè)證書(shū)。
九、費(fèi) 用
培訓(xùn)費(fèi):5500元/人(含教材、證書(shū)、午餐、學(xué)習(xí)用具)食宿統(tǒng)一安排,費(fèi)用自理。
培訓(xùn)師介紹:
由業(yè)界知名大數(shù)據(jù)專家親自授課:
楊老師 主要研究網(wǎng)絡(luò)信息分析以及云計(jì)算相關(guān)技術(shù),長(zhǎng)期從事通信網(wǎng)管系統(tǒng)、網(wǎng)絡(luò)信息處理、商務(wù)智能(BI)以及電信決策支持系統(tǒng)的研究開(kāi)發(fā)工作,主持和參與了多個(gè)國(guó)家和省部級(jí)基金項(xiàng)目,具有豐富的工程實(shí)踐及軟件研發(fā)經(jīng)驗(yàn)。