Changes between Version 2 and Version 3 of waue/2009/0409
- Timestamp:
- Apr 9, 2009, 4:56:32 PM (16 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
waue/2009/0409
v2 v3 25 25 == step 1 安裝好Hadoop叢集 == 26 26 27 * 可以參考這篇 [wiki:0330Hadoop_Lab3hadoop叢集安裝] 28 * 當然單機版也可以,只是這樣就直接安裝nutch更省事囉!單機安裝nutch可以參考這裡[wiki:waue/2009/0406 nutch安裝],但是設定檔要參考這篇的才完整。 27 * 可以參考這篇 [wiki:0330Hadoop_Lab3 hadoop叢集安裝] 28 * 當然單機版也可以,只是這樣就直接安裝nutch更省事囉!單機安裝nutch可以參考這裡[wiki:waue/2009/0406 nutch單機安裝],但是設定檔要參考這篇的才完整。 29 * 安裝好hadoop 叢集之後,/opt/的權限就是使用者的了,並且ssh登入兩台都免密碼,hadoop也能正常執行,並且安裝於/opt/hadoop下,設定檔在 /opt/conf 29 30 30 31 == step 2 下載與安裝 == 31 32 * 下載 java 1.6 33 {{{ 34 $ sudo apt-get install sun-java6-bin 35 }}} 36 * 下載 nutch 1.0 (2009/03/28) 37 {{{ 32 33 === 2.1 下載 nutch 並解壓縮 === 34 * nutch 1.0 (2009/03/28 release ) 35 {{{ 36 $ cd /opt 38 37 $ wget http://ftp.twaren.net/Unix/Web/apache/lucene/nutch/nutch-1.0.tar.gz 39 }}} 38 $ tar -zxvf nutch-1.0.tar.gz 39 $ mv nutch-1.0.tar.gz nutch 40 }}} 41 === 2.2 部屬hadoop,nutch目錄結構 === 42 {{{ 43 $ mv nutch/conf ./nutch_conf 44 $ cp -rf conf/* nutch_conf 45 $ cp -rf hadoop/* nutch 46 }}} 47 * 做完以上動作,nutch的設定檔就會被放在/opt/nutch_conf下,並且把現有hadoop的設定(/opt/conf)帶進nutch的設定中,而nutch_home內的hadoop執行檔也會跟正在運行的hadoop同個版本。 48 * 以上的目錄結構在於nutch與hadoop分離,主程式與設定檔分離,(日誌檔則統一被紀錄到/tmp中),這樣的目的在於,要刪除nutch的話直接移除目錄就好,不會動到原本的hadoop。 40 49 41 50 == step 3 編輯設定檔 == 42 * 所有的設定檔都在 $NUTCH_HOME/conf 下51 * 所有的設定檔都在 /opt/nutch_conf 下 43 52 === 3.1 hadoop-env.sh === 44 將原本的檔案hadoop-env.sh任意處插入53 * 將原本的檔案hadoop-env.sh任意處填入 45 54 {{{ 46 55 #!sh 47 56 export JAVA_HOME=/usr/lib/jvm/java-6-sun 57 48 58 export HADOOP_HOME=/opt/nutch 59 60 export HADOOP_CONF_DIR=/opt/nutch_conf 61 62 export HADOOP_SLAVES=$HADOOP_CONF_DIR/slaves 63 49 64 export HADOOP_LOG_DIR=/tmp/nutch/logs 50 export HADOOP_SLAVES=/opt/nutch/conf/slaves 51 }}} 65 66 export HADOOP_PID_DIR=/tmp/nutch/pid 67 68 export NUTCH_HOME=/opt/nutch 69 70 export NUTCH_CONF_DIR=/opt/nutch_conf 71 }}} 72 * 載入環境設定值 73 {{{ 74 $ source /opt/nutch_conf/hadoop-env.sh 75 }}} 76 * ps:強烈建議寫入 /etc/bash.bashrc 中比較萬無一失!! 77 52 78 === 3.2 hadoop-site.xml === 53 79 {{{