[[PageOutline]] = Crawlzilla 於Ubuntu 10.4下安裝說明 = == 單機及叢集三分鐘快速安裝教學影片版 == [http://www.youtube.com/watch?v=bRWQ3BXEj4A 教學影片 at Youtobe] == 安裝環境 == 執行安裝程式前請確認以下套件是否安裝,以避免相關套件檢查時中斷安裝程序。 * Sun Java(註:crawlzilla執行環境必須於Sun Java中執行,Ubuntu 10.04換成sun-java-jdk可參考以下指令) {{{ sudo add-apt-repository "deb http://archive.canonical.com/ lucid partner" sudo apt-get update sudo apt-get install sun-java6-jdk sun-java6-plugin sudo update-java-alternatives -s java-6-sun }}} * openssh及openssh-server * dialog == 安裝步驟 == === 單機安裝 === 此一安裝過程將假設欲安裝crawlzilla單機版於PC1中 ==== Step1. 取得安裝檔 ==== * 於[http://code.google.com/p/nutchez/ Crawlzilla@GoogleCode]或[https://sourceforge.net/p/crawlzilla/home/ Crawlzilla@SourceForge]中取得crawlzilla最新安裝檔 ==== Step2. 解壓縮並執行安裝程式 ==== * 參考指令如下: {{{ tzr zxvf Crawlzilla-0.2-100813-Shell.tar.gz ./Crawlzilla_Install/install }}} ==== Step3. 設定密碼及確認網路資訊 ==== * 此一步驟將會在系統中新建一組user帳號-crawler,系統服務及叢集間的溝通將會已此一帳號密碼作為執行身份。 * 設定密碼並確認網路狀態資訊後,等候完成安裝即可。 * 畫面如下: [[Image(1.png)]] * 待出現"恭喜您完成Crawlzilla安裝,按Enter鍵離開..."即表示單機環境已安裝完成!安裝完成後開啟網頁將會顯示畫面如下: [[Image(6.png)]] === 叢集安裝 === 此一叢集安裝將於上述之PC1加入叢集運算節點PC2之安裝流程。 ==== Step1. 透過PC1取得安裝提示 ==== * 於client端執行"ssh PC1",並執行 "crawlzilla" 指令,找到"client安裝步驟",如下圖所示: [[Image(2.png)]] * 相關提示字元範例如下: {{{ $ scp crawler@PC1:/home/crawler/crawlzilla/source/client_deploy.sh . $ ./client_deploy.sh }}} * 由於此一步驟需以crawler的身份ssh至PC1,因此過程中約需輸入1~2次crawler密碼 ==== Step2. 於PC2執行上述之提示字元 ==== * 取得提示執行後輸入主機之clawer密碼兩次並確認網路資訊即可自動完成安裝 執行畫面如下: * 確認安裝資訊 [[Image(3.png)]] * 輸入密碼 [[Image(4.png)]] * 安裝完成 [[Image(5.png)]] ==== Step3. 驗證是否安裝成功 ==== * 於PC1執行指令-"crawlzilla",出現以下畫面後選擇 "檢查Cluster 狀態",畫面如下: [[Image(7.png)]] * 若出現2個運算節點表示安裝成功! [[Image(8.png)]] == 註解 == * 單機版安裝程序完成後,系統將會自動開啟tomcat服務及hadoop中的namenode及jobtracker,若要執行網頁crawl功能需自行透過系統管理介面開啟datanode及tasktracker。 * 叢集版安裝完成後,需回PC1執行系統管理介面開啟運算服務後才可加入crawl運算分派資源中。 * 系統管理介面操作方式請參考[wiki:crawlzilla/sysmanagement_zh 此頁說明] last modified: 2010/08/19