Hadoop生態系統及各模塊的功能

來源:魅力女性吧 1.82W
Hadoop生態系統及各模塊的功能

1、 HDFS(Hadoop 分佈式文件系統)

HDFS 是 Hadoop 生態圈中提供分佈式存儲支持的系統,上層的很多計算框架(Hbase、spark 等)都依賴於 HDFS 存儲。

2、 MapReduce(分佈式計算模型)離線計算

何為離線計算,其實就是非實時計算。

3、 Yarn(分佈式資源管理器)

Yarn 的出現主要就是為了解決原始 Hadoop 擴展性較差、不支持多種計算模型的問題。

4、 Spark(內存計算)

Spark 提供了內存中的分佈式計算能力,相比傳統的 MapReduce 大數據分析效率更高、運行速度更快。

5、 HBase(分佈式列存儲數據庫)

Hbase繼承了列存儲的特性,它非常適合需對數據進行隨機讀、寫操作。 其次,Hbase構建在HDFS之上,其內部管理的文件全部存儲在HDFS中。這使它具有高度容錯性和可擴展性,並支持Hadoop mapreduce程序設計模型。

6、 Hive(數據倉庫)

7、 Oozie(工作流調度器)

Oozie 是一個基於工作流引擎的調度器,它其實就是一個運行在 Java Servlet 容器(如 Tomcat)中的 Javas Web 應用,你可以在它上面運行 Hadoop 的 Map Reduce 和 Pig 等任務,。

8、 Sqoop 與 Pig

9、 Flume(日誌收集工具)

Flume 是將數據從產生、傳輸、處理並最終寫入目標路徑的過程抽象為數據流,在具體的數據流中,數據源支持在 Flume 中定製數據發送方,從而支持收集各種不同協議數據。

10、 Kafka(分佈式消息隊列)

Kafka 是 Apache 組織下的一個開源系統,它的最大特性就是可以實時的處理大量數據以滿足各種需求場景:比如基於 Hadoop 平台的數據分析、低時延的實時系統、Storm/Spark 流式處理引擎等。Kafka 現在它已被多家大型公司作為多種類型的數據管道和消息系統使用。

11、 ZooKeeper(分佈式協作服務)

通俗的講,ZooKeeper 相當於一個和事佬的角色,如果兩人之間發生了一些矛盾或者衝突,無法自行解決的話,這個時候就需要 ZooKeeper 這個和事佬從中進行調解,而和事佬調解的方式是站在第三方客觀的角度,根據一些規則(如道德規則、法律規則),客觀的對衝突雙方做出合理、合規的判決。

12、 Ambari(大數據運維工具)

Ambari 是一個大數據基礎運維平台,它實現了 Hadoop 生態圈各種組件的自動化部署、服務管理和監控告警,Ambari 通過 puppet 實現自動化安裝配置,通過 Ganglia 收集監控度量指標,用 Nagios 實現故障報警。

熱門標籤