Changes between Version 27 and Version 28 of waue/2009/nutch_install
- Timestamp:
- Apr 27, 2009, 7:45:46 PM (16 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
waue/2009/nutch_install
v27 v28 14 14 * 解決中文亂碼問題 15 15 * 搜尋引擎不只是找網頁內的資料,也能爬到網頁內的檔案(如pdf,msword) 16 * 運行在多台node 16 17 17 18 = 環境 = … … 25 26 = step 1 安裝好Hadoop = 26 27 27 可以用實做一的方法來安裝 28 == 單機版 == 29 可以用實做一的方法來安裝單機 28 30 * 執行 29 31 {{{ … … 59 61 <property> 60 62 <name>fs.default.name</name> 61 <value>hdfs://node 1:9000/</value>63 <value>hdfs://node01:9000/</value> 62 64 <description> </description> 63 65 </property> 64 66 <property> 65 67 <name>mapred.job.tracker</name> 66 <value>node 1:9001</value>68 <value>node01:9001</value> 67 69 <description> </description> 68 70 </property> … … 80 82 }}} 81 83 * 啟動之後,可以檢查以下網址,來觀看服務是否正常。[http://localhost:50030/ Hadoop 管理介面] [http://localhost:50060/ Hadoop Task Tracker 狀態] [http://localhost:50070/ Hadoop DFS 狀態] 84 == 叢集版 == 85 請參考[wiki:0428Hadoop_Lab3 實作三] 82 86 83 87 = step 2 nutch下載與安裝 = … … 149 153 <property> 150 154 <name>http.agent.url</name> 151 <value>node 1</value>155 <value>node01</value> 152 156 <description>A URL to advertise in the User-Agent header. </description> 153 157 </property> … … 223 227 }}} 224 228 225 229 == 3.4 完全複製到node2 == 230 231 {{{ 232 $ ssh node02 chown hadooper:hadooper /opt 233 $ scp -r /opt/nutch node02:/opt/ 234 }}} 226 235 227 236 = step 4 執行nutch = … … 247 256 $ bin/nutch crawl urls -dir search -threads 2 -depth 3 -topN 100000 >& nutch.log 248 257 }}} 249 * 在nutch運作的同時,可以在node 1節點用瀏覽器,透過 [http://localhost:50030 job管理頁面],[http://localhost:50070 hdfs管理頁面],[http://localhost:50060 程序運作頁面] 來監看程序。258 * 在nutch運作的同時,可以在node01節點用瀏覽器,透過 [http://localhost:50030 job管理頁面],[http://localhost:50070 hdfs管理頁面],[http://localhost:50060 程序運作頁面] 來監看程序。 250 259 251 260 ps: 重要!!! 如果錯誤訊息出現