wiki:crawlzilla

Version 22 (modified by shunfa, 11 years ago) (diff)

--

Crawlzilla 相關文件

Crawlzilla 2.1(單機版)開發進度

項目 進度 備註
安裝 95%(套件檢查未完成) shell script
SH管理 5% 項目訂定
管理 90% web介面(JQuery mobile?)

CrawlJob 流程狀態

  • 1. 正常流程為藍色區塊,紅色區塊代表非正常流程
  • 2. Fair Job仍可Re-Index或直接刪除此次爬取之檔案

判斷Job是否可以修復

  • Step1:檢查crawlDB資料夾是否存在DB Name
  • Step2:檢查solr.xml及solr資料夾是否存在DB Name,均存在則可執行Step3.a,若不存在則必須執行Step3.b,砍掉重練
  • Step3.a:執行reindex程序
  • Step3.b:若存在以下資料,則刪除
            crawlDB/DB_Name
            solr.xml
            solr folder
    

狀況

找不到solrconfig.xml

: java.io.IOException:java.io.IOException: Can't find resource 'solrconfig.xml' in classpath or '/conf/', cwd=/opt/crawlzilla/solr/example 
Please check your logs for more information

網頁啟動Solr

  • 系統有順利啟動,查的到pid,但solr網頁無法順利開啟
  • 目前可work,時好時壞,原因不明

不穩定之服務2013/04/15

待測試及新增項目

  • (v) 多搜尋引擎
  • 加入中文分詞套件庫
  • (測試中,尚未穩定) 本機檔案搜尋
  • 檔案伺服器
  • 檢查相同索引庫名稱,避免衝突
  • tomcat + solr
  • Search UIajax-solr, 測試後無法正常使用(url "#"號問題),待測tomcat

V2.1 Bata Release Todo List

  • (v)[Web] delete, fix function
  • (v)[Web] change PW
  • (v)tar crawlzilla-v2.1-bata.tar.gz

V2.1 Test Note

  • 網址重導頁須檢查
  • Download Link速度太慢
  • 第一次爬取失敗,但reindex shell可發揮效用
  • 網頁執行shell有時不能work

Attachments (3)