wiki:waue/2009/0605

nutchez 目前進度

  • 目前的版本 nutchez_0.1 已經可以順暢的運作
    • menu --> ok
    • crawl web --> ok
    • tomcat --> ok
    • multi-user --> ok

增加功能

  • 判斷中英文,模式:初學者(較多說明)、使用者(快速設定使用)、除錯(細部訊息)
  • 說明資訊
  • nutch-site.xml的更多設定

需改進

  • 搜尋第二次就會超久
    • 猜測是繼承第一次的網址繼續爬網
    • 加個選項:承續前一次or重新爬網
    • 加個選項:只爬固定網址下的網頁
  • 在搜尋的時候會有些java的error
    • 鎖定只爬取某些網頁
  • 減肥
    • nutch = 80M , tomcat = 40M , total => 120M , 每個使用者又把tomcat複製到自己的家目錄下
    • 用link的方式,執行檔都用/opt/nutch/tomcat 但/opt/nutch/tomcat/conf 用自己家目錄的設定
Last modified 15 years ago Last modified on Jun 5, 2009, 4:33:37 PM

Attachments (8)

Download all attachments as: .zip