Hadoop 作為開源的云計算平臺,為大數據處理提供了一整套解決方案,應用非常廣泛。Hadoop 作為一個 平臺框架,包括了如何存儲海量數據,如何處理海量數據,以及相應的數據庫、數據倉庫、數據流處理、數 據分析和挖掘算法庫等等。本次培訓作為知識儲備,主要講解目前應用數據和大數據平臺的數據同步工作以 及了解大數據理論體系結構, 應用 Hadoop 2.0 的大數據框架結構,文本文件與 Hadoop/Hive/Sqoop 數據 遷,Hadoop 的思想、原理,以及重要技術等相關知識。
第一天
一、Hadoop 的基本框架 :
大數據時代面臨的問題 ;當前解決大數據的技術方案 ;Hadoop 架構和云計算 ;Hadoop 簡史及安裝部署 ;Hadoop 設計理念和生態系統
二、HDFS 分布式文件系統:海量數據存儲的搖籃
HDFS 的設計目標 、HDFS 的基本架構 、 NameNode 名稱節點 、 SecondaryNameNode 第二名稱節點 、 DataNode 數據節點 、HDFS 的存儲模型 數據塊存儲 、 元數據存儲(空間鏡像與編輯日志) 、多副本存儲 多副本放置策略 多數據節點管理機制與交互過程 文件系統操作與管理 讀文件過程 寫文件過程(數據流管道) 數據完整性機制 數據校驗和 數據完整性掃描線程 元數據備份與合并 數據可靠性設計 安全模式(數據塊與節點映射關系管理) 心跳檢測機制(節點失效管理) 租約機制(多線程并發控制) 其它 HDFS 的安全機制 負載均衡 文件壓縮 操作接口與編程接口 HDFS Shell HDFS Commands 演練:HDFS 文件操作命令
三、MapReduce 分布式計算系統:海量數據處理的利器
MapReduce 的三層設計理念 、分布治之的設計思想(Map 與 Reduce) 、數據處理引擎(編程模型) 、 運行時環境(任務調度與執行) 、MapReduce 的基本架構 、JobTracker 作業跟蹤器 、TaskTracker 任務跟蹤器 MapReduce 與 HDFS 的部署關系
四、Yarn:平臺
Yarn 平臺的搭建 、 Yarn 實例的運行 、Yarn 應用的監控
全面的IT服務提供商—中睿信息是一家專業的IT服務提供商,致力于解決企業信息化所遇到的棘手問題。公司與微軟(Microsoft)、甲骨文(Oracle)、思科(Cisco)、Pearson VUE等全球著名IT廠商建立長期的合作伙伴關系,業務涵蓋企業IT架構與應用服務、軟件研發顧問咨詢服務、數據庫服務、高級IT技術培訓、軟件項目研發、解決方案實施和就業培訓。公司擁有優秀的技術團隊,掌握國際前沿技術,采用標準化的服務體系,為客戶高效、穩定的IT運營提供強有力支撐,提升企業核心競爭力。服務客戶遍及各種行業,包括金融、通訊、制造業、政府、企事業單位。目前,中睿作為華南區實力強的IT服務商,已成為客戶優秀IT服務商的優選,并與上百家客戶建立了長期、多贏的戰略性合作。