­

5,Hadoop中的文件

 

1,文件結構
· bin:腳本和命令目錄。
· etc:配置文件目錄。
· sbin:命令目錄,主要包含HDFS和YARN中各類服務的啟動和關閉,依賴於bin中的腳本。
· share:各個模組編譯後的jar包,和示例程式碼。
· libexec:各個服務的shell配置文件目錄,比如配置日誌輸出目錄、啟動參數等。
· include:對外提供的頭文件,由C++定義。
· lib:對外的動態庫,與include 對應。
 
2,core-default.xml
··· hadoop的默認配置文件,位於./share/doc/hadoop/hadoop-project-dist/hadoop-common/core-default.xml
其他的配置文件也一樣
 
3,core-site.xml
··· fs.defaultFS
    · 設置運行時的文件系統,默認是 [file:///] 即本地文件系統。
    · 對於分散式Hadoop必須設置為 HDFS,[hdfs://hadoop11:9000],hadoop11:9000為NameNode所在的主機和埠
··· hadoop.tmp.dir
    · hadoop的臨時文件夾,一般為 [/opt/app/hadoop/data/tmp]。會保存hdfs的NameNode的資訊和DataNode的數據
 
4,hdfs-site.xml
··· dfs.replication
    · hdfs的副本個數,默認為3。在偽分散式中要設置為1。
··· dfs.namenode.http-address
    · NameNode的web訪問地址,即在瀏覽器上查看NameNode上的資訊。一般為 [hadoop11:50070]
··· dfs.namenode.secondary.http-address
    · SecondaryNameNode的web訪問地址。一般為 [hadoop33:50090]
··· dfs.permissions.enabled
    · HDFS的文件系統許可權。一般設為 [false]
 
5,yarn-site.xml
··· yarn.resourcemanager.hostname
    · 設置RM主機的位置。一般為 [hadoop22]
··· yarn.nodemanager.aux-services
    · 一般為 [mapreduce_shuffle],通知NodeManager實現名為mapreduce.shuffle的輔助服務
··· yarn.log-aggregation-enable
    · 設置日誌聚集屬性,一般打開,設為 [true]
··· yarn.log-aggragation.retain-seconds
    · 設置日誌聚集的時間,單位秒,一般為7天,設為 [604800]
 
6,mapred-site.xml
··· mapreduce.framework.name
    · MapReduce的計算框架,可以是 local、classic、yarn,一般設為 yarn,默認是local
··· mapreduce.jobhistory.address
    · 歷史伺服器的地址,一般設為 [hadoop33:10020]
··· mapreduce.jobhistory.webapp.address
    · 歷史伺服器的web訪問地址,一般設為 [hadoop33:19888]
 
7,slaves
··· 設置從主機的主機名(不能有空格)
    · 當啟動 hdfs時,會在配置的主機中啟動 DataNode進程。
    · 當啟動 yarn時,會在配置的主機中啟動 NodeManager進程。