CDH集成開發(fā)項目
該系統(tǒng)將Hadoop與其他關(guān)鍵開源項目集成,以創(chuàng)建一個功能先進的系統(tǒng),幫助企業(yè)執(zhí)行端到端的大數(shù)據(jù)工作流程。
CDH是Cloudera的100%開源平臺發(fā)行版,包括Apache Hadoop,專為滿足企業(yè)需求而構(gòu)建。CDH提供開箱即用的企業(yè)使用所需的一切。通過將Hadoop與十幾個其他關(guān)鍵的開源項目集成,Cloudera創(chuàng)建了一個功能先進的系統(tǒng),可幫助您執(zhí)行端到端的大數(shù)據(jù)工作流程。
擁有集群自動化安裝、中心化管理、集群監(jiān)控、報警功能的一個工具(軟件),使得集群的安裝可以從幾天的時間縮短為幾個小時,運維人數(shù)也會從數(shù)十人降低到幾個人,極大的提高了集群管理的效率。
系統(tǒng)特色
CDH基于穩(wěn)定版Apache Hadoop,并應用最新Bug修復或者Feature的Patch
Cloudera官網(wǎng)上安裝、升級文檔十分詳細
CDH支持Yum包、tar包、RPM包,Cloudera Manager四種安裝方式。推薦使用Yum、Apt方式安裝
Cloudera Manager的功能
管理:對集群進行管理,例如添加、刪除節(jié)點等操作
監(jiān)控:監(jiān)控集群的健康情況,對設置的各種指標和系統(tǒng)的具體運行情況進行全面的監(jiān)控
診斷:對集群出現(xiàn)的各種問題進行診斷,并且給出建議和解決方案
集成:多組件可以進行版本兼容間的整合
統(tǒng)合管理平臺
綜合管理平臺,以定制開發(fā)為主,主要功能包括用戶組織結(jié)構(gòu)導入,角色權(quán)限分配,計算資源分配與生命周期的管理。
自動化運維
基于開源技術(shù)框架的實施與二次開發(fā),用于部署遠程主機,SSH協(xié)議實現(xiàn)遠程節(jié)點和管理節(jié)點之間的通信。
集群監(jiān)控
用于對基礎設施的監(jiān)控包括三個方面:狀態(tài),性能和可用性。監(jiān)控集群的性能指標,如cpu 、mem、硬盤利用率, I/O負載、網(wǎng)絡流量情況等, 同時支持監(jiān)控自定義的性能指標。 每個被檢測的節(jié)點或集群運行一個gmond進程,進行監(jiān)控數(shù)據(jù)的收集、匯總和發(fā)送。gmond即可以作為發(fā)送者(收集本機數(shù)據(jù)),也可以作為接收者(匯總多個節(jié)點的數(shù)據(jù))。
通常在整個監(jiān)控體系中只有一個gmetad進程。該進程定期檢查所有的gmonds,主動收集數(shù)據(jù),并存儲在RRD存儲引擎中。
可以以圖表的方式展現(xiàn)存儲在RRD中的數(shù)據(jù)。通常與gmetad進程運行在一起。
可視化操作
可視化操作包括如下核心功能:
HDFS訪問
Hive編輯器
Solr搜索應用。
Impala數(shù)據(jù)交互查詢
集成Spark編輯器和DashBoard
Pig編輯器
Oozie調(diào)度器
HBase數(shù)據(jù)查詢、修改、可視化
Metastore的瀏覽。
Job的支持,Sqoop,ZooKeeper以及DB(MySQL,SQLite,Oracle等)
