| | 1 | = Nutch 安裝測試 = |
| | 2 | |
| | 3 | * 之前有安裝過nutch (version 0.9)並成功運作於四台主機上。由於想到之後上課可能有需要,再重新操作一次 |
| | 4 | * 網址 : [wiki:nutch] |
| | 5 | * 這次的測試與之前的測試不同點在於: |
| | 6 | 1. 版本是新的(nutch 1.0) |
| | 7 | 2. 之前是空的環境下直接安裝nutch,也沒有hadoop的基礎來安裝,因此目錄結構都用nutch官網介紹的;然而這次的安裝測試在於把nutch運行在已經有的hadoop之上。不過測試的結果是失敗了,錯誤訊息在於找不到dfs之類的訊息。 |
| | 8 | * 於是又再退回最原始的方法,用空的環境架nutch,並且所有的安裝都用最簡單的設定,步驟如下: |
| | 9 | |
| | 10 | == step 1 登入免密碼 == |
| | 11 | |
| | 12 | * 這是最基本的,怎麼做就不贅述。 |
| | 13 | |
| | 14 | == step 2 下載與安裝 == |
| | 15 | |
| | 16 | * 下載 java 1.6 |
| | 17 | {{{ |
| | 18 | $ sudo apt-get install sun-java6-bin |
| | 19 | }}} |
| | 20 | * 下載 nutch 1.0 (2009/03/28) |
| | 21 | {{{ |
| | 22 | $ wget http://ftp.twaren.net/Unix/Web/apache/lucene/nutch/nutch-1.0.tar.gz |
| | 23 | }}} |
| | 24 | |
| | 25 | == step 3 編輯設定檔 == |
| | 26 | * 所有的設定檔都在 $NUTCH_HOME/conf 下 |
| | 27 | === 3.1 hadoop-env.sh === |
| | 28 | === 3.2 hadoop-site.xml === |
| | 29 | === 3.3 nutch-site.xml === |
| | 30 | === 3.4 slaves === |
| | 31 | === 3.5 crawl-urlfilter.txt === |
| | 32 | |
| | 33 | |
| | 34 | == step 4 執行 == |
| | 35 | === 4.1 編輯url清單 === |
| | 36 | |
| | 37 | === 4.2 開啟HDFS |
| | 38 | |
| | 39 | === 4.3 上傳清單到HDFS === |
| | 40 | |
| | 41 | === 4.4 執行nutch crawl === |
| | 42 | |
| | 43 | == step 5 web瀏覽 == |
| | 44 | |
| | 45 | === 5.1 安裝tomcat === |
| | 46 | |
| | 47 | === 5.2 瀏覽crawl結果 === |