= nutchez 目前進度 = * 目前的版本 nutchez_0.1 已經可以順暢的運作 * menu --> ok * crawl web --> ok * tomcat --> ok * multi-user --> ok == 增加功能 == * 判斷中英文,模式:初學者(較多說明)、使用者(快速設定使用)、除錯(細部訊息) * 說明資訊 * nutch-site.xml的更多設定 == 需改進 == * 搜尋第二次就會超久 * 猜測是繼承第一次的網址繼續爬網 * 加個選項:承續前一次or重新爬網 * 加個選項:只爬固定網址下的網頁 * 在搜尋的時候會有些java的error * 鎖定只爬取某些網頁 * 減肥 * nutch = 80M , tomcat = 40M , total => 120M , 每個使用者又把tomcat複製到自己的家目錄下 * 用link的方式,執行檔都用/opt/nutch/tomcat 但/opt/nutch/tomcat/conf 用自己家目錄的設定