Changes between Initial Version and Version 1 of waue/2009/0605


Ignore:
Timestamp:
Jun 5, 2009, 4:33:37 PM (15 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2009/0605

    v1 v1  
     1 = nutchez 目前進度 =
     2
     3 * 目前的版本 nutchez_0.1 已經可以順暢的運作
     4   * menu --> ok
     5   * crawl web --> ok
     6   * tomcat --> ok
     7   * multi-user --> ok
     8
     9 == 增加功能 ==
     10
     11 * 判斷中英文,模式:初學者(較多說明)、使用者(快速設定使用)、除錯(細部訊息)
     12 * 說明資訊
     13 * nutch-site.xml的更多設定
     14
     15 == 需改進 ==
     16 * 搜尋第二次就會超久
     17   * 猜測是繼承第一次的網址繼續爬網
     18   * 加個選項:承續前一次or重新爬網
     19   * 加個選項:只爬固定網址下的網頁
     20 * 在搜尋的時候會有些java的error
     21   * 鎖定只爬取某些網頁
     22 * 減肥
     23   * nutch = 80M , tomcat = 40M , total => 120M , 每個使用者又把tomcat複製到自己的家目錄下
     24   * 用link的方式,執行檔都用/opt/nutch/tomcat 但/opt/nutch/tomcat/conf 用自己家目錄的設定